Goodfire.ai-onderzoekers isoleerden memorisatie- en redeneerpaden in AI-neurale netwerken, gedetailleerd beschreven in een preprint eind oktober papier. Het onderzoek toont een duidelijke scheiding aan van deze functies binnen grote taalmodellen. Toen de memorisatiepaden werden verwijderd, verloren modellen 97 procent van hun vermogen om trainingsgegevens woordelijk te reciteren. Hun vermogen tot ‘logisch redeneren’ bleef echter grotendeels intact. Onderzoekers rangschikten de gewichtscomponenten van hoog naar laag op basis van ‘kromming’. In het OLMo-7B-taalmodel van het Allen Institute for AI liet laag 22 zien dat de onderste 50 procent van de gewichtscomponenten een 23 procent hogere activering had op opgeslagen gegevens. Omgekeerd vertoonde de top 10 procent een 26 procent hogere activering op algemene, niet-gememoriseerde tekst. Deze mechanistische splitsing maakte het mogelijk om het memoriseren operatief te verwijderen, terwijl andere mogelijkheden behouden bleven. Door componenten op de laagste ranglijst te verwijderen, werd het onthouden van geheugen geëlimineerd; het behouden van de best gerangschikte personen die problemen oplossen. Rekenkundige bewerkingen lijken neurale paden te delen met memoriseren in plaats van logisch redeneren. Door het verwijderen van geheugencircuits daalde de wiskundige prestatie tot 66 procent, terwijl logische taken vrijwel onaangeroerd bleven. Dit zou kunnen verklaren waarom AI-modellen worstelen met wiskunde zonder externe hulpmiddelen, en vertrouwen op uit het hoofd geleerde feiten zoals “2+2=4” in plaats van op berekeningen. AI-‘redeneren’ omvat vaardigheden zoals het evalueren van waar/onwaar-uitspraken en het volgen van als-dan-regels, die de verwijdering van het geheugen hebben overleefd. Dit verschilt van de diepere ‘wiskundige redenering’ die nodig is voor bewijzen of nieuwe probleemoplossing, waar de huidige AI-modellen mee worstelen, zelfs met intacte mogelijkheden om patronen te matchen. Toekomstige ontwikkeling van deze technieken voor het verwijderen van informatie zou AI-bedrijven in staat kunnen stellen auteursrechtelijk beschermde inhoud, privé-informatie of schadelijke opgeslagen tekst uit neurale netwerken te verwijderen zonder de transformatieve taakprestaties te vernietigen. Onderzoekers stellen echter dat hun methode “geen volledige eliminatie van gevoelige informatie kan garanderen” vanwege de gedistribueerde aard van informatieopslag in neurale netwerken. Om dit onderscheid te begrijpen, is het ‘verlieslandschap’ nodig, een visualisatie van de voorspellingsnauwkeurigheid van een AI-model op basis van interne instellingen of ‘gewichten’. “Verlies” meet fouten, waarbij een laag verlies weinig fouten aangeeft. Het “landschap” brengt de foutpercentages voor alle mogelijke instellingscombinaties in kaart. Tijdens de training passen AI-modellen de gewichten aan om fouten te minimaliseren, waardoor ze in dit landschap effectief “bergafwaarts rollen”. Onderzoekers analyseerden de “kromming” van verlieslandschappen en maten de gevoeligheid van de modelprestaties voor kleine veranderingen in het gewicht van neurale netwerken. Een hoge kromming duidt op scherpe pieken en dalen, wat betekent dat kleine veranderingen aanzienlijke effecten hebben. Lage kromming betekent vlakke vlaktes waar veranderingen minimale impact hebben. Deze krommingswaarden werden gebruikt om de gewichtscomponenten te rangschikken. Met behulp van K-FAC (Kronecker-Factored Approximate Curvature) ontdekten wetenschappers dat individuele opgeslagen feiten scherpe, eigenzinnige pieken in het landschap creëren die bij het gemiddelde afvlakken. Het redeneervermogen, waarop veel verschillende inputs vertrouwen, behoudt daarentegen consistente, gematigde curven. Onderzoekers geven aan dat “richtingen die gedeelde mechanismen implementeren die door veel inputs worden gebruikt, op coherente wijze bijdragen en gemiddeld een hoge kromming blijven”, waarmee ze redeneerroutes beschrijven. Bij het onthouden wordt daarentegen gebruik gemaakt van ‘eigenzinnige scherpe richtingen die verband houden met specifieke voorbeelden’ die bij gemiddelde weergave vlak lijken. De techniek werd getest op meerdere AI-systemen, waaronder de OLMo-2-familie van Allen Institute (versies met 7 miljard en 1 miljard parameters) en aangepaste Vision Transformers met 86 miljoen parameters (ViT-Base-modellen) op ImageNet. Ze valideerden ook de bevindingen met bestaande methoden zoals BalancedSubnet. Het selectief verwijderen van gewichtscomponenten met een lage kromming resulteerde in een daling van de herinnering aan opgeslagen inhoud van bijna 100 procent naar 3,4 procent. Logische redeneringstaken behielden 95 tot 106 procent van de basisprestaties. Logische taken omvatten evaluatie van Booleaanse expressies, logische deductiepuzzels, objecttracking, BoolQ voor ja/nee-redenering, Winogrande voor gevolgtrekking uit gezond verstand en OpenBookQA voor wetenschappelijke vragen. Wiskundige bewerkingen en het terugvinden van feiten in gesloten boeken, waarbij routes werden gedeeld met memoriseren, daalden na bewerking naar 66 tot 86 procent. Rekenkunde bleek bijzonder broos, waarbij berekeningen mislukten, zelfs met identieke redeneerketens nadat componenten met een lage kromming waren verwijderd. Het team legde uit: “Rekenkundige problemen zelf worden op de 7B-schaal uit het hoofd geleerd, of omdat ze nauwgezette aanwijzingen vereisen om nauwkeurige berekeningen uit te voeren.” Het beantwoorden van vragen met open boek, vertrouwend op de geboden context, bleef vrijwel volledig presteren. Mechanismescheiding varieerde per informatietype; Veelvoorkomende feiten, zoals de hoofdsteden van landen, vertoonden na bewerking een minimale verandering, terwijl zeldzame feiten, zoals de CEO’s van bedrijven, met 78 procent daalden, wat erop wijst dat er sprake is van een differentiële toewijzing van neurale hulpbronnen op basis van de informatiefrequentie in de training. De K-FAC-techniek presteerde beter dan de bestaande methoden voor het verwijderen van memorisatie en bereikte 16,1 procent memorisatie van ongeziene historische citaten, tegenover 60 procent voor BalancedSubnet. Visietransformatoren vertoonden vergelijkbare patronen, waarbij het verwijderen van memorisatiepaden de nauwkeurigheid van 66,5 procent herstelde op eerder verkeerd gelabelde afbeeldingen. Onderzoekers erkennen beperkingen; verwijderde herinneringen kunnen bij verdere training terugkeren, omdat de huidige afleermethoden voornamelijk informatie onderdrukken. De reden voor de kwetsbaarheid van wiskunde bij het verwijderen van memorisatie is onduidelijk, evenals de vraag of bepaalde complexe capaciteiten ten onrechte als memoriseren worden geïdentificeerd. Bovendien kunnen wiskundige hulpmiddelen voor het meten van het ‘landschap’ van het model in extreme gevallen onbetrouwbaar zijn.





