Grote taalmodellen zoals ChatGPT hebben een fundamenteel probleem: ze zijn statisch. Ze worden getraind op een berg gegevens en vervolgens bevroren in de tijd, als een leerboek dat in 2023 is gedrukt en niets weet over 2024. Nu hebben onderzoekers van MIT’s onwaarschijnlijke AI-lab hebben open source een nieuw raamwerk dat daar verandering in zou kunnen brengen. Hun paper, gepresenteerd op de recente NeurIPS 2025-conferentieonthult een systeem genaamd Zelfaanpassende taalmodellen (SEAL). Het kernidee is simpel, maar de implicaties zijn enorm: de AI leert het zichzelf leren. In plaats van alleen maar passief informatie vast te houden, stelt SEAL een model in staat zijn eigen hoogwaardige trainingsgegevens te genereren en die gegevens vervolgens te gebruiken om zijn eigen gewichten permanent bij te werken. Dit is van belang omdat het de eerste echte stap is weg van statische, alleswetende bots naar AI-modellen die in de loop van de tijd daadwerkelijk kunnen evolueren, aanpassen en nieuwe informatie kunnen opnemen.
Waarom AI-modellen slechte studenten zijn
Als je wilt dat een LLM een nieuw feit leert, heb je op dit moment twee slechte opties. U kunt de informatie in het contextvenster (de prompt) ‘stoppen’, maar dat feit wordt vergeten zodra het gesprek opnieuw wordt ingesteld. Of je kunt een enorme, dure omscholing uitvoeren, wat lijkt op het herdrukken van een hele encyclopedie, alleen maar om er een nieuw artikel aan toe te voegen. Geen van deze methoden is echt leren. Het MIT-team, bestaande uit Adam Zweiger, Jyothish Pari en Pulkit Agrawal, onderzocht hoe mensen leren. Wanneer een student zich voorbereidt op een examen, leest hij het leerboek niet zomaar 50 keer opnieuw. Een goede leerling herschrijft de informatie, het maken van flashcards, het samenvatten van hoofdstukken en het maken van hun eigen aantekeningen. Dit proces van het opnieuw formatteren en assimileren van informatie is wat het in hun hersenen verankert. SEAL is ontworpen om die goede student te zijn. Het leert het ‘ruwe leerboek’ van nieuwe informatie te nemen en zijn eigen ‘studieaantekeningen’ te genereren – wat de krant noemt “zelfbewerkingen”–in welke vorm dan ook die het meest effectief is voor zijn eigen leerproces.
Dus, hoe leert het ‘studeren’?
Het leert met vallen en opstaan, met behulp van een proces dat versterkend leren wordt genoemd. Zie het als een AI die zijn eigen studiesessies houdt.
- Krijg de les: De AI krijgt een nieuw stukje informatie (zoals een tekstpassage).
- Schrijf de notities: Het genereert een ‘zelfbewerking’: zijn eigen synthetische aantekeningen over die informatie. Dit kan een lijst met belangrijke implicaties zijn, een reeks vraag-en-antwoord-paren, of gewoon een eenvoudige samenvatting.
- Doe de quiz: De AI wordt kort daarop verfijnd eigen aantekeningen en daarna meteen een popquiz gegeven over de nieuwe informatie.
- Krijg het cijfer: Als hij slaagt voor de quiz, krijgt hij een ‘beloning’. Deze positieve feedback leert het model dat de ‘zelfbewerkings’-aantekeningen die het zojuist heeft geschreven, van hoge kwaliteit en effectief waren.
- Slimmer studeren: Als het niet lukt, ontdekt het dat de aantekeningen slecht waren en probeert het de volgende keer een ander formaat. Gedurende duizenden van deze lussen leert de AI niet alleen de nieuwe feiten; Het leert hoe te leren nieuwe feiten efficiënter.
En de resultaten?
De onderzoekers hebben SEAL op twee belangrijke gebieden getest en de resultaten zijn opvallend. Eerst testten ze het vermogen ervan om nieuwe kennis te integreren. Ze gaven de modeltekstpassages en ondervroegen hem over de inhoud. Nadat hij zichzelf had getraind met SEAL, sprong de nauwkeurigheid van de AI omhoog 47,0%. Hier is de kicker: die score presteerde beter dan de synthetische gegevens gegenereerd door de veel grotere en krachtigere GPT-4.1dat slechts 46,3% scoorde. Het kleinere model leerde zichzelf letterlijk ‘slimmer’ te zijn dan zijn enorme concurrent bij deze specifieke taak. Ten tweede testten ze het vermogen om een nieuwe vaardigheid te leren aan de hand van slechts een paar voorbeelden. Dit is een notoir harde benchmark voor abstract redeneren, genaamd ARC. De taak van SEAL was niet alleen om de puzzel op te lossen, maar ook om de beste leerstrategie voor zichzelf (bijv. “gebruik deze data-uitbreidingen”, “stel dit leertempo in”). De zichzelf aanpassende AI heeft een succesvolle strategie gevonden 72,5% van de tijd. Het basismodel, zonder dit zelflerende model, rommelde en slaagde slechts in 20% van de gevallen.
Wat is de vangst?
Dit klinkt allemaal geweldig, maar een pragmaticus zou gelijk hebben als hij naar de nadelen vraagt. De onderzoekers zijn transparant over de beperkingen.
- Catastrofaal vergeten: Het model lijdt nog steeds onder het klassieke AI-probleem van ‘catastrofaal vergeten’. Terwijl het zich voorbereidt op nieuwe examens, begint het te vergeten wat het voor de tussentijdse examens heeft geleerd. Het leren van een nieuw feit kan nog steeds oude overschrijven.
- Het gaat pijnlijk langzaam: Dit proces is niet snel. De onderzoekers merken op dat de computationele overhead ‘substantieel’ is. Het duurt 30-45 seconden om een cijfer te behalen enkel zelf bewerken tijdens de trainingslus.
- Er is een antwoordsleutel nodig: Het huidige systeem is afhankelijk van het hebben van een ‘quiz’ met correcte antwoorden om dat allerbelangrijkste beloningssignaal te geven.
Ondanks deze hindernissen kijkt het team vooruit. Deskundigen voorspellen dat we in 2028 geen door mensen gegenereerde tekst van hoge kwaliteit meer zullen hebben om AI op te trainen. Wanneer we die ‘datamuur’ tegenkomen, zal de vooruitgang afhangen van het vermogen van een model om zijn eigen zeer bruikbare trainingsgegevens te genereren. Dit onderzoek is een cruciale routekaart voor hoe dat zou kunnen werken, en maakt de weg vrij voor toekomstige AI-agenten die niet alleen uw vragen beantwoorden, maar actief leren van hun interacties met de wereld en elke dag slimmer worden.





