Recent onderzoek van Apple suggereert dat modellen die een hoge score behaalden op de GSM8K-dataset misschien niet zo intelligent zijn als ze lijken.
Grote Taalmodellen (LLM’s) worden alom geprezen om hun ogenschijnlijk indrukwekkende redeneervermogen. Modellen van bedrijven als OpenAI, Google en Meta worden vaak gepresenteerd als krachtige tools die complexe problemen kunnen oplossen, waarbij tests zoals de GSM8K-dataset een populaire benchmark zijn om hun redeneervaardigheden te meten.
Toch zal het onderzoek van Apple het zogenaamde betrouwbare systeem veranderen.
Wat is een GSM8K-dataset?
De GSM8K-dataset (Grade School Math 8K) is een benchmark die wordt gebruikt om het probleemoplossende en redeneervermogen van grote taalmodellen (LLM’s) te evalueren. Het bestaat uit meer dan 8.000 wiskundige woordproblemen op basisschoolniveau, waarvoor doorgaans rekenkunde, logisch redeneren en probleemoplossende vaardigheden in meerdere stappen nodig zijn om tot het juiste antwoord te komen.
De GSM8K-dataset bestaat uit:
- Wiskunde op basisschoolniveau: De problemen zijn ontworpen om het soort vragen na te bootsen dat een leerling in groep 1 t/m 8 tegen kan komen, zoals elementaire rekenkunde, meetkunde, algebra en logische puzzels.
- Woordproblemen: Elke vraag wordt gepresenteerd in de vorm van een woordprobleem, waarbij het model het probleem moet interpreteren, de relevante getallen en bewerkingen moet identificeren en de vergelijking moet oplossen.
- Gebruikt voor LLM-evaluatie: De dataset wordt vaak gebruikt als test om te zien hoe goed taalmodellen zoals OpenAI’s GPT, Google’s modellen of Meta’s LLaMA redeneringstaken kunnen verwerken die verder gaan dan alleen tekstvoorspelling.
- Redeneren in meerdere stappen: De problemen vereisen meerdere stappen om op te lossen, waarbij het vermogen van het model wordt getest om complexe redeneerreeksen te volgen, in plaats van eenvoudigweg een antwoord in één stap te produceren.
De GSM8K-dataset is een populair hulpmiddel geworden om te beoordelen of LLM’s logisch kunnen redeneren en problemen uit de echte wereld kunnen oplossen. Er bestaat echter bezorgdheid dat veel AI-modellen goed presteren op deze dataset door middel van patroonmatching in plaats van door redeneren, omdat ze tijdens de training mogelijk aan soortgelijke problemen zijn blootgesteld.
De beperkingen van LLM’s van de GSM8K-dataset
Apple-onderzoekers beweren dat dit succes wellicht meer te maken heeft met verfijnde patroonmatching dan met echt logisch redeneren. Omdat de GSM8K-dataset zo vaak wordt gebruikt, bestaat het risico op gegevensbesmetting, wat betekent dat veel LLM’s deze problemen misschien al tijdens de training hebben gezien, waardoor hun schijnbare intelligentie is opgeblazen.
Om dit aan te pakken heeft Apple een nieuwe benchmark ontwikkeld, genaamd GSM-symbolisch. Deze test behoudt de kernredeneringselementen van de GSM8K-dataset, maar introduceert veranderingen zoals verschillende namen, nummers en complexiteit, samen met irrelevante informatie.
De resultaten? Elke LLM getest, inclusief modellen zoals OpenAI’s GPT-4 en Meta’s Lama 3zag een aanzienlijke prestatiedaling bij het aangaan van deze nieuwe uitdaging. Dit suggereert dat LLM’s hebben moeite met correct redeneren wanneer variabelen worden gewijzigdwaardoor hun daadwerkelijke probleemoplossende vaardigheden verder in twijfel worden getrokken.
Waarom hebben LLM’s het moeilijk?
Het onderzoek van Apple werpt licht op een kritieke fout in LLM’s: Ze zijn uitstekend in het detecteren van patronen in de trainingsgegevens, maar missen een echte logische redenering. Toen wiskundige problemen bijvoorbeeld irrelevante details bevatten, zoals de grootte van kiwi’s in een fruitplukscenario, trokken veel LLM’s dat irrelevante detail van de vergelijking af, wat aantoonde dat ze er niet in slaagden te onderscheiden welke informatie nodig was om het probleem op te lossen.
Bij tests met de GSM8K-datasetLLM’s zoals de modellen van OpenAI presteerden beter dan hun open-source tegenhangers, maar de daling in nauwkeurigheid wanneer irrelevante informatie werd toegevoegd suggereert dat deze systemen verre van echte intelligentie bereiken. Dit heeft diepgaande gevolgen voor de toekomstige ontwikkeling van AI, waaruit blijkt dat hoewel LLM’s intelligentie kunnen nabootsen, ze nog steeds moeite hebben om de context echt te begrijpen.
Slimmere AI of gewoon beter in slim lijken?
Het onderzoek van Apple onderstreept de beperkingen van het vertrouwen op benchmarks zoals de GSM8K-dataset om AI-intelligentie te beoordelen. Hoewel deze tests patroonherkenning kunnen meten, vangen ze niet altijd de nuances van echt logisch redeneren op. De introductie van de GSM-Symbolic benchmark biedt een rigoureuzere test van het vermogen van een AI om met onbekende variabelen en irrelevante informatie om te gaan – vaardigheden die essentieel zijn voor het oplossen van problemen in de echte wereld.
Sam Altman, CEO van OpenAI, heeft deze uitdagingen zelfs erkend en verwijst naar de huidige LLM’s als “ongelooflijk domondanks hun indrukwekkende uiterlijk in een exclusief interview met MIT-technologierecensie. De echte test voor toekomstige LLM’s zal hun vermogen zijn om verder te gaan dan patroonherkenning en een robuuster probleemoplossend vermogen te ontwikkelen.
De bevindingen uit het onderzoek van Apple bieden een ontnuchterend perspectief op de huidige staat van LLM’s. Terwijl modellen zijn getraind op datasets zoals GSM8K presteren misschien goed in gecontroleerde omgevingen, maar hun redeneervermogen hapert wanneer ze worden getest op complexere, reële problemen. Dit benadrukt het belang van verder onderzoek en ontwikkeling om ervoor te zorgen dat AI-modellen verder gaan dan oppervlakkige intelligentie en echte logische redeneervaardigheden ontwikkelen.
Voor nuis het van cruciaal belang om de opwinding rond AI te temperen met een gezonde scepsis, waarbij de nadruk ligt op veiligere, slimmere AI-systemen die meer aankunnen dan alleen patroonherkenning.
Afbeeldingscredits: DC Studio/Freepik