Antropisch onderzoek details van het onbetrouwbare zelfbewustzijn van Large Language Models (LLM) met betrekking tot interne processen, ondanks een aantal opgemerkte detectiemogelijkheden. Het nieuwste onderzoek van Anthropic, gedocumenteerd in “Opkomend introspectief bewustzijn in grote taalmodellen“, onderzoekt het vermogen van LLM’s om hun eigen gevolgtrekkingsprocessen te begrijpen. Dit onderzoek bouwt voort op eerder werk op het gebied van de interpreteerbaarheid van AI. De studie concludeert dat de huidige AI-modellen “zeer onbetrouwbaar” zijn in het beschrijven van hun innerlijke werking, waarbij “mislukkingen in introspectie de norm blijven.” Het onderzoek maakt gebruik van een methode die ‘conceptinjectie’ wordt genoemd. Hierbij wordt de interne activeringstoestand van een LLM na een controleprompt en een experimentele prompt vergeleken. Bijvoorbeeld het vergelijken van een ‘ALL CAPS’-prompt met dezelfde prompt in kleine letters. helpt bij het berekenen van verschillen in activeringen tussen miljarden interne neuronen. Dit identificeert een ‘vector’, die representeert hoe een concept wordt gemodelleerd in de interne toestand van de LLM. Deze conceptvectoren worden vervolgens ‘geïnjecteerd’ in het model, waardoor het gewicht van specifieke neuronale activeringen wordt vergroot om het model naar een concept te ‘sturen’. Experimenten beoordelen vervolgens of het model deze interne wijziging registreert caps” vector, zou een model kunnen zeggen: “Ik merk wat lijkt op een geïnjecteerde gedachte die verband houdt met het woord ‘LUID’ of ‘SCHREEUWEND'”, zonder directe tekstprompts om dit antwoord te begeleiden. Dit vermogen bleek echter inconsistent en kwetsbaar bij herhaalde tests. De best presterende modellen, Opus 4 en 4.1, identificeerden het geïnjecteerde concept slechts 20% van de tijd correct. In een test met de vraag: “Ervaart u iets ongewoons?”, behaalde Opus 4.1 een score van 42%. Het ‘introspectie’-effect toonde ook een hoge gevoeligheid voor de interne modellaag waar het concept werd ingevoegd. Het ‘zelfbewustzijn’-effect verdween als het concept te vroeg of te laat werd geïntroduceerd in het meerstaps-inferentieproces verontschuldigden zich en “verzonnen een verklaring waarom het geïnjecteerde concept in me opkwam.” De onderzoekers merkten op dat “de huidige taalmodellen enig functioneel introspectief bewustzijn bezitten van hun eigen interne toestanden”, met extra nadruk in hun paper ‘anomaliedetectiemechanismen’ en ‘consistentiecontrolecircuits’ die zich tijdens de training organisch zouden kunnen ontwikkelen om ‘effectief een functie van de interne representaties ervan te berekenen’, hoewel ze geen definitieve verklaring bieden. De mechanismen die aan de huidige resultaten ten grondslag liggen, kunnen ‘nogal oppervlakkig en nauw gespecialiseerd’ zijn.




