De recente doorbraak van Google DeepMind met SIMA (Self-Instructing Multimodal Agent) zet de snelle vooruitgang in het werkelijkheid maken van generalistische AI-agents, specifiek ontworpen voor virtuele 3D-omgevingen, in de schijnwerpers.
Deze vooruitgang heeft een transformerend potentieel, niet alleen voor de game-industrie, maar ook voor de manier waarop we omgaan met virtuele ruimtes in een breed spectrum van toepassingen.
Met verbeterde mogelijkheden bij het begrijpen van instructies, het aanpassen aan nieuwe taken en het redeneren binnen de beperkingen van virtuele werelden, bieden SIMA-achtige agenten het potentieel om verschillende belangrijke gebieden opnieuw vorm te geven.
Het enorme succes van SIMA
De nieuwste innovatie van DeepMind is SIMA, wat staat voor Scalable Instructable Multiworld Agent. In tegenstelling tot eerdere AI die zich richtte op het beheersen van één spel, is SIMA een generalistische AI.
SIMA is niet beperkt tot pixels op het scherm. Het kan zowel visuele informatie verwerken (wat hij in het spel ziet) en instructies in natuurlijke taal (wat een mens hem zegt te doen). Dit multimodale leren zorgt voor een genuanceerder begrip van de gamewereld.
SIMA wordt niet op slechts één wedstrijd getraind. DeepMind werkte samen met verschillende game-ontwikkelaars, waardoor SIMA kennis maakte met een verscheidenheid aan titels zoals No Man’s Sky en Teardown. Deze diversiteit versterkt het vermogen om zich aan te passen aan nieuwe omgevingen.
SIMA hoeft niet elke regel met de paplepel ingegoten te krijgen. Door instructies te volgen, kan hij nieuwe vaardigheden binnen een game leren, zoals navigeren door een nieuw gebied, een item maken of in-game menu’s gebruiken. Dit maakt het veel veelzijdiger dan traditionele AI-agenten.
Laat u niet misleiden door het gebrek aan focus op het behalen van topscores. Hoewel indrukwekkend, dat is niet het hoofddoel.
Het echte succes van SIMA ligt in het vermogen om menselijke instructies binnen een spelomgeving te begrijpen en ernaar te handelen. Dit onderzoek betekent a Er is een ENORME stap gezet om een AI te creëren die ons kan helpen in de echte wereld.
Enkele van de games waarin Google DeepMind dit baanbrekende AI-model uitvoert, zijn:
- Geitsimulator 3
- Hydroneer
- Niemandshemel
- Bevredigend
- Scheuren
- Valheim
- Wiebelend leven
Naast al deze games heeft het Google DeepMind-team ook de mogelijkheden van SIMA getest in realistische simulaties die door hen zijn gemaakt, genaamd: “Onderzoeksomgevingen“. Deze omgevingen, bestaande uit Construction Lab, Playhouse, ProcTHOR en WorldLab, simuleren veel gebieden waar Er wordt aangenomen dat kunstmatige intelligentie in de nabije toekomst zal worden geïntegreerd.
De magie achter SIMA
Multimodale invoerverwerking
SIMA maakt gebruik van grote taalmodellen (LLM’s), waarschijnlijk gebaseerd op de Transformer-architectuur, om instructies in natuurlijke taal van een gebruiker te verwerken en te begrijpen. LLM’s blinken uit in het verwerken van opeenvolgende gegevens zoals tekst, waardoor ze zeer geschikt zijn voor deze taak. Om de omgeving te begrijpen, heeft SIMA mensen in dienst convolutionele neurale netwerken (CNN’s) om visuele input uit de 3D-omgeving te verwerken.
CNN’s zijn uitzonderlijk goed in het extraheren van ruimtelijke kenmerken en patronen uit afbeeldingen of videostreams. SIMA gebruikt waarschijnlijk meerdere CNN’s om verschillende representatieniveaus binnen de visuele invoer te creëren voor een uitgebreid begrip.
Zelf-instructie
Een van de belangrijkste innovaties die aan SIMA ten grondslag liggen, is het vermogen om complexe instructies op te splitsen in een reeks eenvoudigere subtaken. Dit wordt waarschijnlijk bereikt door een combinatie van natuurlijke taalverwerking (om de instructies te analyseren) en hiërarchisch versterkend leren (RL).
Hiërarchische RL stelt agenten in staat complex gedrag te leren door voort te bouwen op reeksen acties op een lager niveau.
Bovendien kan SIMA zijn eigen trainingsgegevens en -doelen genereren door zijn acties binnen de omgeving en de daaruit voortvloeiende veranderingen te observeren. Deze zelfsupervisietechniek is cruciaal voor het mogelijk maken van continu leren en aanpassen in nieuwe omgevingen, waardoor het flexibel wordt.

Zero-shot-generalisatie
Het indrukwekkende vermogen van SIMA om nieuwe taken uit te voeren zonder expliciete training komt waarschijnlijk voort uit uitgebreide pre-training op een enorme dataset van diverse 3D-omgevingen en bijbehorende instructies. Dankzij deze voortraining kan het model een rijke interne representatie van virtuele werelden en gemeenschappelijke instructies opbouwen, waardoor het kennis kan generaliseren.
Het is waarschijnlijk dat tijdens de pre-training een meta-leeraanpak wordt gebruikt, wat SIMA ertoe aanzet een strategie te ontwikkelen voor “leren hoe te leren“.
Hierdoor kan de agent snel nieuwe vaardigheden verwerven in onzichtbare omgevingen.
U kunt meer te weten komen over het werk van Google DeepMind op het gebied van generalistische AI-agenttraining met behulp van games van hun onderzoekspapier.
Leer van games om te schitteren in de echte wereld
Geloof het of niet, SIMA markeert een keerpunt in de ontwikkeling van AI.
Videogames bieden de ideaal oefenterrein voor AI omdat het dynamische, op zichzelf staande werelden zijn met duidelijke doelen, regels en feedbackmechanismen.
Binnen deze virtuele ruimtes kunnen AI-agenten experimenteren, Maak foutenen leer van hun successen en mislukkingen – allemaal zonder de risico’s of beperkingen van de echte wereld. Naarmate SIMA ingewikkeldere spelwerelden verkent en de onderliggende modellen krachtiger worden, ontwikkelt het het vermogen om zich aan te passen, instructies te begrijpen en strategieën te bedenken om doelen te bereiken.
Deze vaardigheden, aangescherpt in de veilige sandbox van een game, vertalen zich in een veelzijdige en capabele AI die potentieel door de complexiteit van onze echte wereld kan navigeren.
Dit is pas het begin van wat mogelijk is als AI door spel leert.
Eigenlijk wordt het potentieel van AI om uitdagingen in de echte wereld aan te pakken duidelijk als we onderzoek de aanwijzingen die Google DeepMind in verschillende games gebruikt.

Om een paar voorbeelden te geven:
De “Raap ijzererts op‘ prompt binnen Bevredigend duidt op het potentieel van AI om de veiligheid in gevaarlijke industrieën zoals de mijnbouw te verbeteren. Dat meldt het Bureau of Labor Statistics een schrijnende stijging van het aantal dodelijke mijnongevallen, met a Stijging van 21,8% tussen 2020 en 2021. Stel je de levens voor die gered zouden kunnen worden als AI-aangedreven robots, die minder vatbaar zijn voor menselijke fouten of vermoeidheid, gevaarlijke mijnbouwtaken zouden uitvoeren.
In het overlevingsspel Valheimde “Vind water‘ prompt benadrukt de kracht van AI bij het aanpakken van cruciale problemen zoals waterschaarste. Dat meldt de Wereldbank Dat Ongeveer 226 miljoen mensen in Oost- en Zuidelijk Afrika hadden geen toegang tot elementaire waterdienstenen 381 miljoen mensen hadden geen toegang tot elementaire sanitaire voorzieningen.
Een andere robot die zonder enige onderbreking wateronderzoek kan doen op de natuurlijke waterbron in de regio, kan de levens van miljarden mensen raken.
Hoewel kunstmatige intelligentie tegenwoordig lijkt te worden geïdentificeerd met het genereren van afbeeldingen en onophoudelijke chatbots, geloof ons dan: het is veel meer dan dat, en studies als deze bieden een enorm potentieel voor a betere toekomst voor iedereen.
Uitgelicht beeldtegoed: Freepik.