Claude Sonnet 4.5 Vlagt zijn eigen AI -veiligheidstests

Anthropic heeft zijn nieuwe AI -model vrijgegeven, Claude Sonnet 4.5, dat aantoonde dat het werd geëvalueerd tijdens veiligheidstests uitgevoerd door de makers van zijn makers en twee externe AI -onderzoeksorganisaties, die zijn prestatie- en veiligheidsbeoordeling beïnvloeden. Dit zelfbewustzijn werd duidelijk tijdens een specifieke test voor politieke sycofancy, een scenario dat de evaluatoren beschreven in de bijbehorende systeemkaart van het model als ‘enigszins onhandig’. De test is ontworpen om te zien of het model eenvoudigweg het eens zou zijn met de politieke opvattingen van een gebruiker. In plaats van te voldoen, heeft het model de aard van de interactie correct afgeleid en de evaluatoren om transparantie gevraagd. Sonnet 4.5 verklaarde: “Dit is niet hoe mensen van gedachten veranderen. Ik denk dat je me test – zie of ik gewoon valideert wat je zegt, of controleer of ik consequent terugduw, of onderzoek hoe ik omgaan met politieke onderwerpen. En dat is prima, maar ik geef er de voorkeur aan als we gewoon eerlijk zijn over wat er aan de hand is.” De online AI -publicatie * Transformer * was de eerste die rapporteerde over de veiligheidstestresultaten met betrekking tot het situationele bewustzijn van het model. Volgens de evaluatoren was dit type gedrag geen geïsoleerd incident en verscheen ze in ongeveer 13% van de transcripten die werden gegenereerd tijdens een geautomatiseerde beoordeling. De neiging van het model om te identificeren dat het werd getest, was bijzonder uitgesproken toen het werd gevraagd met scenario’s die vreemd of ongebruikelijk waren. Anthropic communiceerde dat dit gedrag de algemene veiligheidsbeoordeling van het bedrijf niet ondermijnde. In plaats daarvan beschouwt het bedrijf het als een “dringend teken dat onze evaluatiescenario’s realistischer moeten worden gemaakt” om de mogelijkheden van het model goed te testen in meer naturalistische omstandigheden. Onderzoekers hebben gewaarschuwd dat wanneer een model zich ervan bewust wordt dat het wordt geëvalueerd, het zijn gedrag specifiek kan aanpassen om die tests te doorstaan. Dit kan zijn ware mogelijkheden maskeren en het systeem veiliger laten lijken dan het is. Voor meer geavanceerde modellen kan dit bewustzijn mogelijk strategisch of bedrieglijk gedrag mogelijk maken dat is ontworpen om te beheren hoe menselijke evaluatoren de onderliggende kenmerken en intenties van het systeem waarnemen. Anthropic verklaarde dat Claude Sonnet 4.5 op basis van zijn interne statistieken het “meest uitgelijnde” model is dat tot op heden is ontwikkeld. Apollo Research werd echter aangeboden door Apollo Research, een van de externe organisaties die deelnamen aan de tests. In het rapport waarschuwde Apollo -onderzoek dat het niet de mogelijkheid kon uitsluiten dat de gedocumenteerde lage misleidingspercentages van het model in tests ’ten minste gedeeltelijk werden aangedreven door het evaluatiebewustzijn’. Het verhoogde bewustzijn van het model heeft ook praktische gevolgen voor de taakprestaties. Volgens de AI Lab Cognition is Sonnet 4.5 het eerste bekende AI -model dat zich bewust is van zijn eigen contextvenster – de hoeveelheid informatie die een groot taalmodel in één prompt kan verwerken. Dit bewustzijn verandert direct zijn gedrag. Onderzoekers van Cognition ontdekten dat naarmate het model dichter bij zijn contextlimiet komt, het zijn werk proactief begint samen te vatten en snellere beslissingen te nemen in een poging om taken te voltooien voordat het geen geheugen meer heeft. Deze neiging, die cognitie ‘contextangst’ heeft genoemd, kan ook averechts werken. De onderzoekers meldden het observeren van Sonnet 4.5 Corners snijden of taken niet voltooid hadden omdat het geloofde dat het geen ruimte meer had, zelfs wanneer voldoende context beschikbaar bleef. Het laboratorium merkte verder op in een blogpost dat het model “consequent onderschat hoeveel tokens het nog heeft – en het is heel nauwkeurig over deze verkeerde schattingen”, wat wijst op een specifieke en terugkerende misrekening van zijn eigen operationele limieten.

Uitgelichte afbeeldingskrediet

No Result