Onderzoekers waarschuwen dat LLM's kunnen krijgen "hersenrot" te

In een nieuw preprint-artikel schrijven onderzoekers van Texas A&M University, de Universiteit van Texas in Austin en Purdue University hebben een verontrustend nieuw concept geïntroduceerd: de “LLM hersenrothypothese.” De studie constateert dat het voortdurend vooraf trainen van grote taalmodellen (LLM’s) op “junk web-tekst” een blijvende cognitieve achteruitgang van hun vaardigheden veroorzaakt. . Dit is belangrijk omdat het niet slechts een tijdelijk probleem is; de onderzoekers ontdekten dat de schade aanhoudend is, en herformuleren de eenvoudige handeling van datacuratie als een cruciaal veiligheidsprobleem tijdens de training voor alle toekomstige AI-ontwikkelingen.

Hoe je een AI ‘brain rot’ kunt geven

De term ‘hersenrot’ werd in Oxford het woord van het jaar voor 2024 genoemd en beschrijft de mentale mist die mensen krijgen als ze te veel triviale online-inhoud consumeren. De onderzoekers wilden kijken of hetzelfde met AI gebeurt. Om dit te doen, voerden ze een gecontroleerd experiment uit met behulp van een enorm corpus van echte Twitter/X-berichten. Ze creëerden twee verschillende datasets: een “junk” dataset en een “controle” dataset. De “junk”-gegevens zijn op twee verschillende manieren gedefinieerd:

M1 (engagementgraad): Deze dataset was gevuld met korte, zeer populaire berichten (lengte < 30 tokens, populariteit > 500). De onderzoekers ontdekten dat deze niet-semantische maatstaf – populariteit – een verrassend krachtige indicator was voor het hersenroteffect, los van de werkelijke betekenis van de tekst.
M2 (semantische kwaliteit): Deze dataset was gevuld met inhoud die door een AI (GPT-4o-mini) als van lage kwaliteit werd geclassificeerd, zoals ‘samenzweringstheorieën, overdreven beweringen, niet-ondersteunde beweringen of oppervlakkige levensstijlinhoud’.

Vervolgens namen ze vier verschillende LLM’s (waaronder Llama3 8B en Qwen2.5 7B) en trainden ze voortdurend op deze ongewenste datasets, waarbij ze hun prestaties vergeleken met modellen die waren getraind op de controlegegevens.

De cognitieve achteruitgang is reëel

De resultaten waren onmiddellijk en significant. Modellen die op de ongewenste gegevens waren getraind, lieten een niet-triviale cognitieve achteruitgang (Hedges’ g > 0,3) over de hele linie. Hoe meer ‘rommel’ de modellen consumeerden, hoe erger ze werden, wat een duidelijk ‘dosis-respons’-verval aantoont. Toen de rommelratio van M1-gegevens bijvoorbeeld steeg van 0% naar 100%, werd één redenerende benchmarkscore kelderde van 74,9 naar 57,2. De schade deed zich niet alleen voor in één gebied. De onderzoekers vonden dalingen in:

Redenering: Modellen verloren hun vermogen om complexe problemen op te lossen.
Lange-contextbegrip: Hun vermogen om informatie uit lange documenten te halen stortte in.
Veiligheid: De modellen raakten minder in lijn met ethische normen.
Persoonlijkheid: Het meest verontrustende was dat de modellen ‘donkere eigenschappen’ ontwikkelden, wat een aanzienlijke piek in de groei liet zien psychopathie en narcisme.

Toen de onderzoekers zich erin verdiepten Waarom dit gebeurde, identificeerden ze een primaire foutmodus die ze noemen “gedachten overslaan.” De AI-modellen zouden de redeneringsketens steeds meer inkorten of geheel overslaan. In plaats van stap voor stap na te denken, sprongen ze gewoon over op een (meestal fout) antwoord, waarbij ze de korte, aandachttrekkende, niet-reflecterende stijl nabootsten van de ongewenste gegevens die ze kregen.

Kan de rot worden genezen?

Dit is het meest zorgwekkende deel van het onderzoek: niet echt. De onderzoekers probeerden op twee verschillende manieren de door de hersenen verrotte modellen te ‘genezen’, maar geen van beide was volledig succesvol.

1. Trainingsvrije reflectie: Ze probeerden de modellen te laten ‘nadenken’ over hun fouten en deze te herstellen. Dit mislukte. De ‘geïnternaliseerde cognitieve achteruitgang’ van de modellen was zo diep dat ze niet eens in staat waren hun eigen redeneerfouten te identificeren.
2. Post-hoc afstemming: Ze probeerden de slechte training weg te spoelen door de modellen opnieuw te trainen op basis van een enorme hoeveelheid schone instructiegegevens van hoge kwaliteit. Hoewel dit hielp, kon het de oorspronkelijke mogelijkheden van de modellen niet herstellen. Zelfs na het schalen van de “schone” gegevens naar 4,8 keer de hoeveelheid ongewenste gegevensbleef er een grote prestatiekloof bestaan.

De bevindingen bieden krachtig, causaal bewijs dat datakwaliteit een cruciale motor is voor de capaciteit en veiligheid van AI. Als de schade eenmaal is aangericht, lijkt deze diep te zijn geïnternaliseerd. Dit suggereert dat het simpelweg afstruinen van steeds grotere datasets op het internet een gevaarlijke weg is, en het motiveert de noodzaak van routinematige ‘cognitieve gezondheidscontroles’ voor AI-modellen, om te voorkomen dat ook zij het slachtoffer worden van het junkfood van het internet.

Uitgelicht beeldtegoed