We horen constant over de ongelooflijke prestaties van AI zoals GPT-4O en Gemini-schrijfcode, het maken van poëzie, acing-examens. Je denkt misschien dat deze krachtige multimodale grote taalmodellen (MLLMS), die zowel tekst als afbeeldingen begrijpen, goed op weg zijn om alles te beheersen. Maar wat gebeurt er als je hen vraagt om iets te doen schijnbaar eenvoudigs, zoals Lego -instructies volgen?
Volgens een nieuw studie Van onderzoekers van de Shanghai AI Laboratory en Tongji University, het antwoord is: ze falen grotendeels. Deze AI -tovenaars blijken verrassend onhandig te zijn als het gaat om begrip en redeneren over objecten in de ruimte over meerdere stappen – een vaardigheid die cruciaal is voor interactie met de echte wereld.
Waarom AI testen met Legos?
De onderzoekers ontwierpen een slimme benchmark genaamd LEGO-PUZZLES Juist omdat het bouwen van Lego’s weerspiegelt hoe mensen ‘ruimtelijke intelligentie’ ontwikkelen. Het volgen van die kleine diagrammen vereist het begrijpen van 3D -vormen, hoe ze in elkaar passen, hun oriëntatie en de juiste reeks acties. Als een AI dat niet aan kan, hoe kunnen we verwachten dat deze een robotarm leidt die een product monteert of door een zelfrijdende auto door een complexe bouwzone wordt gebracht?
De benchmark van LEGO-PUZZLES is geen kinderspel. Het bevat meer dan 1.100 visuele vragen over 11 verschillende taken. Deze variëren van basiscontroles (“Is dit stuk groter dan dat?”, “Zijn deze twee blokken aanraken?”) Tot complexe sequenties (“Plaats deze assemblagestappen in de juiste volgorde”, “Welke afbeelding toont het fout stap?”).
De verrassende scorekaart: AI versus mensen
Dus, hoe deden de beste AI -modellen van vandaag aan deze LEGO -uitdagingen? De resultaten waren opvallend en eerlijk gezegd, een beetje beschamend voor de AI.
- Massieve kloof: Zelfs de beste modellen, zoals Openai’s GPT-4O en Google’s Gemini-2.0-Flash, beantwoordden alleen maar 50-58% van de vragen correct.
- Menselijke triomf: Menselijke deelnemers daarentegen door de puzzels met de puzzels meer dan 90% nauwkeurigheid.
- Open-source worstelingen: Veel open-source MLLM’s presteerden slechts iets beter dan willekeurig gaden. Sommige volledig mislukte specifieke taken, zoals het bestellen van assemblagestappen, geven soms gewoon dezelfde verkeerde letter uit voor bijna elke vraag.
De AI worstelde met name met taken met betrekking tot:
- Hoogteperceptie: Vaak verwarrend een 2D -beeldprojectie met 3D -realiteit (denk aan optische illusies).
- Rotatie: Begrijpen hoe objecten er uitzien om te worden gedraaid.
- Multi-step redeneren: Hoe meer stappen in een reeks betrokken zijn, hoe slechter de AI presteerde, wat een falen benadrukt om veranderingen in de loop van de tijd te volgen.
Kaist groeide hersenen voor AI die meteen kunnen leren van apparaten
Kan AI ons zelfs de volgende stap laten zien?
Misschien nog meer vertellen was de beeldgeneratietest. Onderzoekers vroegen MLLMS om een afbeelding te genereren die de resultaat van een specifieke LEGO -montagestap.
Het resultaat? Een bijna totale mislukking. De meeste modellen negeerden de instructies, kopieerden eenvoudig de invoerafbeelding of gegenereerden iets dat volledig niet gerelateerd is. Alleen Gemini-2,0-flash en GPT-4O vertoonden een “beperkte vaardigheid”-Gemini was beter in het nauwkeurig bewerken van het bestaande beeld, terwijl GPT-4O de scène conceptueel leek te regenereren, vaak de visuele consistentie verliezen. De open-source modellen waren hopeloos verloren.
Dit onderzoek legt een kritische zwakte bloot in de huidige AI -ontwikkeling. Terwijl modellen uitblinken in patroonovereenkomst in taal en statische afbeeldingen, missen ze een robuust greep van Meerstaps ruimtelijk redeneren – Het dynamische begrip van hoe dingen werken in fysieke ruimte en tijd.
Uit de studie bleek dat zelfs het aanmelden van technieken zoals “Chain-of Thought” (de AI vragen “stap voor stap te denken”), die vaak helpen bij tekstproblemen, minimaal voordeel opleverden en soms zelfs zelfs gehinderd Prestaties op deze ruimtelijke taken, vooral complexe.
Het lijkt erop dat onze 3D -wereld echt begrijpt en hoe acties zich erin ontvouwen, meer vereist dan alleen het verwerken van enorme hoeveelheden tekst en afbeeldingen. Mllms hebben betere manieren nodig om ruimte weer te geven, wijzigingen achtereenvolgens bij te houden en misschien een vorm van ‘visueel geheugen’ te ontwikkelen.
Uitgelichte afbeeldingskrediet: Kerem gülen/imagen 3