Grote taalmodellen hebben volgens een recent onderzoek geworsteld met vermenigvuldiging van meerdere cijfers zonder gespecialiseerde trainingsmethoden, ondanks hun vermogen om complexe codeer- en redeneertaken uit te voeren. Onderzoek gepubliceerd op de arXiv preprint-server van Xiaoyan Bai en Chenhao Tan van de Universiteit van Chicago, samen met medewerkers van MIT, Harvard University, de Universiteit van Waterloo en Google DeepMind, identificeerden de redenen voor deze beperking en vonden oplossingen. Standaard grote taalmodellen behaalden een nauwkeurigheid van minder dan 1% bij het vermenigvuldigen van twee getallen van vier cijfers, zelfs met verhoogde lagen tot 12. Deze modellen kwamen samen op een ‘lokaal optimaal’, waarbij ze er niet in slaagden de tussenliggende berekeningen op te slaan en op te halen die nodig zijn voor vermenigvuldiging met meerdere cijfers, die zijn gecategoriseerd als afhankelijkheden op lange termijn. Omgekeerd behaalde een model dat was getraind met de Implicit Chain of Thought (ICoT)-methode een nauwkeurigheid van 100%. Het ICoT-model demonstreerde het vermogen om afhankelijkheden op lange termijn te volgen en redeneerprocessen te internaliseren door tussentijdse redeneerstappen tijdens de training geleidelijk te verwijderen. Het onderzoeksteam decodeerde tussenwaarden, zoals lopende sommen, uit de interne toestanden van het ICoT-model, wat niet mogelijk was met het standaard verfijningsmodel. Het ICoT-model organiseerde zijn aandacht in verschillende trajecten, waarbij producten van cijferparen in vroege lagen werden berekend en deze op specifieke locaties werden opgeslagen om in latere lagen te worden opgehaald. Hierdoor ontstond een efficiënte interne structuur voor vermenigvuldiging. Uit de studie bleek ook dat het ICoT-model bewerkingen representeerde met behulp van elegante structuren, cijfers codeerde als golfachtige patronen (Fourier-bases) en rekenkunde ruimtelijk organiseerde. Tijdens de vermenigvuldiging van cijferparen maakte het model uiteraard gebruik van een geometrische bewerking, een zogenaamde Minkowski-som, die niet expliciet door de onderzoekers was geprogrammeerd. Onderzoekers bereikten een nauwkeurigheid van 99% in een tweelaags model door een aangepast trainingsdoel te introduceren dat het model leerde om bij elke stap lopende bedragen bij te houden, waardoor tussenwaarden en deelproducten naar voren konden worden gebracht. Door deze toevoeging kon het model mechanismen ontwikkelen die vergelijkbaar zijn met die van ICoT, waaronder het opslaan en ophalen van gedeeltelijke producten en het gelijktijdig volgen van meerdere cijferparen. Chenhao Tan zei: “Ons onderzoek probeert dat terrein in kaart te brengen.” De studie benadrukt dat architecturale inzichten en trainingstechnieken obstakels kunnen overwinnen die schaalvergroting alleen niet kan oplossen, en benadrukt het belang van ingebouwde begeleiding bij het bevorderen van AI-mogelijkheden. De bevindingen belichten fundamentele aspecten van de manier waarop grote taalmodellen leren en ‘denken’, waarbij het afhankelijkheidsprobleem op lange termijn zich verder uitstrekt dan de rekenkunde en ook andere opeenvolgende taken in het taalmodelleren omvat.





