Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Standaard AI-modellen voldoen niet aan eenvoudige wiskunde zonder gespecialiseerde training

byKerem Gülen
30 december 2025
in Research
Home Research
Share on FacebookShare on Twitter

Grote taalmodellen hebben volgens een recent onderzoek geworsteld met vermenigvuldiging van meerdere cijfers zonder gespecialiseerde trainingsmethoden, ondanks hun vermogen om complexe codeer- en redeneertaken uit te voeren. Onderzoek gepubliceerd op de arXiv preprint-server van Xiaoyan Bai en Chenhao Tan van de Universiteit van Chicago, samen met medewerkers van MIT, Harvard University, de Universiteit van Waterloo en Google DeepMind, identificeerden de redenen voor deze beperking en vonden oplossingen. Standaard grote taalmodellen behaalden een nauwkeurigheid van minder dan 1% bij het vermenigvuldigen van twee getallen van vier cijfers, zelfs met verhoogde lagen tot 12. Deze modellen kwamen samen op een ‘lokaal optimaal’, waarbij ze er niet in slaagden de tussenliggende berekeningen op te slaan en op te halen die nodig zijn voor vermenigvuldiging met meerdere cijfers, die zijn gecategoriseerd als afhankelijkheden op lange termijn. Omgekeerd behaalde een model dat was getraind met de Implicit Chain of Thought (ICoT)-methode een nauwkeurigheid van 100%. Het ICoT-model demonstreerde het vermogen om afhankelijkheden op lange termijn te volgen en redeneerprocessen te internaliseren door tussentijdse redeneerstappen tijdens de training geleidelijk te verwijderen. Het onderzoeksteam decodeerde tussenwaarden, zoals lopende sommen, uit de interne toestanden van het ICoT-model, wat niet mogelijk was met het standaard verfijningsmodel. Het ICoT-model organiseerde zijn aandacht in verschillende trajecten, waarbij producten van cijferparen in vroege lagen werden berekend en deze op specifieke locaties werden opgeslagen om in latere lagen te worden opgehaald. Hierdoor ontstond een efficiënte interne structuur voor vermenigvuldiging. Uit de studie bleek ook dat het ICoT-model bewerkingen representeerde met behulp van elegante structuren, cijfers codeerde als golfachtige patronen (Fourier-bases) en rekenkunde ruimtelijk organiseerde. Tijdens de vermenigvuldiging van cijferparen maakte het model uiteraard gebruik van een geometrische bewerking, een zogenaamde Minkowski-som, die niet expliciet door de onderzoekers was geprogrammeerd. Onderzoekers bereikten een nauwkeurigheid van 99% in een tweelaags model door een aangepast trainingsdoel te introduceren dat het model leerde om bij elke stap lopende bedragen bij te houden, waardoor tussenwaarden en deelproducten naar voren konden worden gebracht. Door deze toevoeging kon het model mechanismen ontwikkelen die vergelijkbaar zijn met die van ICoT, waaronder het opslaan en ophalen van gedeeltelijke producten en het gelijktijdig volgen van meerdere cijferparen. Chenhao Tan zei: “Ons onderzoek probeert dat terrein in kaart te brengen.” De studie benadrukt dat architecturale inzichten en trainingstechnieken obstakels kunnen overwinnen die schaalvergroting alleen niet kan oplossen, en benadrukt het belang van ingebouwde begeleiding bij het bevorderen van AI-mogelijkheden. De bevindingen belichten fundamentele aspecten van de manier waarop grote taalmodellen leren en ‘denken’, waarbij het afhankelijkheidsprobleem op lange termijn zich verder uitstrekt dan de rekenkunde en ook andere opeenvolgende taken in het taalmodelleren omvat.


Uitgelicht beeldtegoed

Tags: AIwiskunde

Related Posts

Natuurstudie projecteert 2B draagbare gezondheidsapparaten tegen 2050

Natuurstudie projecteert 2B draagbare gezondheidsapparaten tegen 2050

7 januari 2026
Imperial College London ontwikkelt AI om de ontdekking van hartmedicijnen te versnellen

Imperial College London ontwikkelt AI om de ontdekking van hartmedicijnen te versnellen

6 januari 2026
DeepSeek introduceert Manifold-Constrained Hyper-Connections voor R2

DeepSeek introduceert Manifold-Constrained Hyper-Connections voor R2

6 januari 2026
CMU-onderzoekers ontwikkelen zelfbewegende objecten, aangedreven door AI

CMU-onderzoekers ontwikkelen zelfbewegende objecten, aangedreven door AI

31 december 2025
Glean’s Work AI Institute identificeert vijf kern-AI-spanningen

Glean’s Work AI Institute identificeert vijf kern-AI-spanningen

31 december 2025
AI corrumpeert academisch onderzoek met citaten uit niet-bestaande onderzoeken

AI corrumpeert academisch onderzoek met citaten uit niet-bestaande onderzoeken

30 december 2025

Recent Posts

  • XBrew Lab onthult cartridge-vrije nitro-koffiemachine op CES 2026
  • OpenAI neemt het Convogo-team over om de inspanningen op het gebied van AI-cloud te stimuleren
  • Snowflake gaat Observe-observatieplatform verwerven
  • Google transformeert Gmail met AI Inbox en zoeken in natuurlijke taal
  • Oogonderzoeken van de EU en het VK naar X vanwege het gebrek aan waarborgen van Grok

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.