Kunstmatige intelligentie heeft al lang geworsteld met een fundamenteel probleem: Hoe kan een AI zijn omgeving intelligent verkennen zonder expliciete instructies? Traditionele versterking leren (RL) vertrouwt op vallen en opstaanhet vaak verspillen van enorme hoeveelheden tijd die willekeurig in wisselwerking staat met zijn omgeving. Hoewel AI -modellen kunnen worden getraind om specifieke taken efficiënt op te lossen, Door ze zinvol nieuwe omgevingen te verkennen – zonder vooraf gedefinieerde doelen – is een grote uitdaging geweest.
Een recente studie Door Cansu Sanctar, Christian Gumbsch, Andrii Zadaianchuk, Pavel Kolev en Georg Martius van de Universiteit van Tübingen, het Max Planck Instituut, Tu Dresden, en de Universiteit van Amsterdam introduceren een veelbelovende oplossing: Sensei (semantisch verstandige verkenning).
In tegenstelling tot eerdere methoden die verkenning behandelen als een bruut-force probleemSensei neemt een andere aanpak – een die nabootst Hoe mensen, met name kinderen, de wereld verkennen. In plaats van alleen willekeurig nieuwe dingen te proberen, zoeken mensen uit zinvolle interacties—Open laden in plaats van alleen op bureaus te bonzen, knoppen te drukken in plaats van hun armen te zwaaien. Sensei brengt dit mensachtige nieuwsgierigheid voor kunstmatige agenten door te gebruiken Foundation -modellen zoals Vision Language Models (VLMS) naar Gids verkenning met semantisch begrip.
Het probleem met AI -verkenning
Voor AI -agenten om nieuwe taken te leren, moeten ze eerst hun omgeving verkennen. Traditionele verkenningsmethoden zijn afhankelijk van intrinsieke motivatiewat betekent dat AI een interne beloning krijgt voor acties die genereren nieuwigheid of Maximaliseer informatiewinst. Deze aanpak leidt echter vaak tot lage, ongestructureerd gedrag– zoals een robot willekeurig beweegt of herhaaldelijk objecten aanraakt zonder hun relevantie te herkennen.
Stel je een robot voor in een kamer vol objecten:
- Een standaard RL -agent Zou elke actie willekeurig kunnen proberen – het bureau slaan, in cirkels draaien of de lucht pakken – zonder prioriteit te geven aan nuttige interacties.
- Een mensachtige leerlingdat zou daarentegen Richt zich natuurlijk op objecten zoals laden en knoppenherkennen ze als bronnen van zinvolle interacties.
Dit is waar Sensei stapt in.
AI verwerkt nu moleculaire simulaties: dankzij Mdcrow
Hoe Sensei AI leert om als een mens te verkennen
Sensei introduceert een Nieuw type intrinsieke motivatie– Eén gebaseerd op semantisch begrip. In plaats van blindelings te verkennen, wordt AI door geleid door Wat een funderingsmodel (een grootschalige AI getraind op enorme hoeveelheden gegevens) beschouwt ‘interessant’.
Het proces werkt in drie hoofdstappen:
1. Lesgeven AI Wat is “interessant”
Voordat de agent begint te verkennen, gebruikt Sensei Een visie-taalmodel (VLM) zoals GPT-4V om afbeeldingen van de omgeving te evalueren. De VLM wordt vragen gesteld zoals:
“Welke van deze twee afbeeldingen is interessanter?”
Uit deze vergelijkingen distilleert sensei een semantische beloningsfunctieleer de AI Welke soorten interacties zijn belangrijk.
2.. Een wereldmodel leren
Zodra de AI begrijpt wat wordt beschouwd als ‘interessant’, is het dan Bouwt een intern wereldmodel op– Een voorspellend systeem dat het helpt anticiperen op hoe de omgeving zal reageren op zijn acties.
- In plaats van dat nodig is vraag het funderingsmodel constant inde AI Leert om interessantheid te voorspellen op zichzelf.
- Dit vermindert de afhankelijkheid van externe modellen en maakt het mogelijk snellere, zelfgeleide verkenning.
3. Slimmer verkennen, niet harder
Met dit begrip is de AI nu Geleid door twee concurrerende motivaties:
- Vind interessante dingen (Maximaliseer de semantische beloning).
- Verleggen de grenzen van wat het weet (Verhoog de onzekerheid door nieuwe gebieden te verkennen).
Het resultaat? AI -agenten Ontgrendel gedrag dat zowel nieuw als zinvol is-net als door menselijke nieuwsgierigheid gedreven verkenning.
Wat Sensei kan doen: AI die echte interacties ontgrendelt
De onderzoekers testten sensei in Twee verschillende omgevingen:
1. Simulaties van videogames (Minihack)
- In een spel waar een AI moest Zoek een sleutel om een gesloten deur te openenSensei prioriteit gegeven aan interacties met de sleutel en deur– net zoals een mens zou doen.
- Traditionele AI -exploratiemethoden kwamen vaak vast aan het doen van willekeurige bewegingen zonder te begrijpen Betekenis van objecten in de scène.
- Sensei loste de puzzels van het spel op sneller en met minder verspilde acties dan andere AI -methoden.
2. Robotische simulaties (Robodesk)
- In een RobotarmomgevingSensei gericht op het manipuleren van objecten zoals laden en knoppenLeren zinvolle taken op natuurlijke wijze.
- Concurrerende AI -systemen ook willekeurig zwaaiend of kwam vast te zitten herhalende acties zonder echt doel.
In beide gevallen deed sensei niet zomaar bedek meer grond-Het gericht op interacties die ertoe dedenleidend rijker en efficiënter leren.
Waarom dit ertoe doet: de toekomst van AI -exploratie
Sensei’s vermogen om Geef prioriteit aan zinvolle interacties kan een revolutie teweegbrengen in robotica, waardoor robots toestaan Zelfleer nuttig gedrag zonder expliciete programmering. Voorstellen:
- Een thuisassistent dat komen uit hoe u nieuwe apparaten kunt gebruiken zonder stapsgewijze instructies.
- Industriële robots die aanpassen aan nieuwe taken in fabrieken zonder menselijke tussenkomst.
Door zich te concentreren op semantisch relevante verkenningAi kan Verminder verspilde berekeningleidend sneller en energiezuiniger leren.
Een van de grootste uitdagingen in AI is het creëren van systemen die Leer flexibel zoals mensen. Sensei vertegenwoordigt een stap in de richting van AI -agenten die op intelligente wijze nieuwe omgevingen kunnen verkennen– Zin om op te vertrouwen Handgemaakte trainingsgegevens of vooraf gedefinieerde doelstellingen.
Beperkingen
Terwijl Sensei is een grote sprong voorwaartshet heeft nog steeds enkele beperkingen:
- Het is gebaseerd op hoogwaardige visuele input. Als de camera van de AI is geblokkeerd of vervormd, kan het begrip worden beïnvloed.
- Het is nog niet multimodaal. Hoewel het goed werkt met afbeeldingen, kunnen toekomstige versies geluid, tekst en andere zintuiglijke ingangen bevatten voor rijkere verkenning.
- Het veronderstelt dat algemene mensachtige nieuwsgierigheid altijd gunstig is. In sommige gespecialiseerde toepassingen zijn bepaalde interacties mogelijk niet nuttig.
Uitgelichte afbeeldingskrediet: Kerem gülen/midjourney