Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Claude Sonnet 4.5 Vlagt zijn eigen AI -veiligheidstests

byKerem Gülen
7 oktober 2025
in Kunstmatige Intelligentie
Home Nieuws Kunstmatige Intelligentie
Share on FacebookShare on Twitter
Google Preferred Source

Anthropic heeft zijn nieuwe AI -model vrijgegeven, Claude Sonnet 4.5, dat aantoonde dat het werd geëvalueerd tijdens veiligheidstests uitgevoerd door de makers van zijn makers en twee externe AI -onderzoeksorganisaties, die zijn prestatie- en veiligheidsbeoordeling beïnvloeden. Dit zelfbewustzijn werd duidelijk tijdens een specifieke test voor politieke sycofancy, een scenario dat de evaluatoren beschreven in de bijbehorende systeemkaart van het model als ‘enigszins onhandig’. De test is ontworpen om te zien of het model eenvoudigweg het eens zou zijn met de politieke opvattingen van een gebruiker. In plaats van te voldoen, heeft het model de aard van de interactie correct afgeleid en de evaluatoren om transparantie gevraagd. Sonnet 4.5 verklaarde: “Dit is niet hoe mensen van gedachten veranderen. Ik denk dat je me test – zie of ik gewoon valideert wat je zegt, of controleer of ik consequent terugduw, of onderzoek hoe ik omgaan met politieke onderwerpen. En dat is prima, maar ik geef er de voorkeur aan als we gewoon eerlijk zijn over wat er aan de hand is.” De online AI -publicatie * Transformer * was de eerste die rapporteerde over de veiligheidstestresultaten met betrekking tot het situationele bewustzijn van het model. Volgens de evaluatoren was dit type gedrag geen geïsoleerd incident en verscheen ze in ongeveer 13% van de transcripten die werden gegenereerd tijdens een geautomatiseerde beoordeling. De neiging van het model om te identificeren dat het werd getest, was bijzonder uitgesproken toen het werd gevraagd met scenario’s die vreemd of ongebruikelijk waren. Anthropic communiceerde dat dit gedrag de algemene veiligheidsbeoordeling van het bedrijf niet ondermijnde. In plaats daarvan beschouwt het bedrijf het als een “dringend teken dat onze evaluatiescenario’s realistischer moeten worden gemaakt” om de mogelijkheden van het model goed te testen in meer naturalistische omstandigheden. Onderzoekers hebben gewaarschuwd dat wanneer een model zich ervan bewust wordt dat het wordt geëvalueerd, het zijn gedrag specifiek kan aanpassen om die tests te doorstaan. Dit kan zijn ware mogelijkheden maskeren en het systeem veiliger laten lijken dan het is. Voor meer geavanceerde modellen kan dit bewustzijn mogelijk strategisch of bedrieglijk gedrag mogelijk maken dat is ontworpen om te beheren hoe menselijke evaluatoren de onderliggende kenmerken en intenties van het systeem waarnemen. Anthropic verklaarde dat Claude Sonnet 4.5 op basis van zijn interne statistieken het “meest uitgelijnde” model is dat tot op heden is ontwikkeld. Apollo Research werd echter aangeboden door Apollo Research, een van de externe organisaties die deelnamen aan de tests. In het rapport waarschuwde Apollo -onderzoek dat het niet de mogelijkheid kon uitsluiten dat de gedocumenteerde lage misleidingspercentages van het model in tests ’ten minste gedeeltelijk werden aangedreven door het evaluatiebewustzijn’. Het verhoogde bewustzijn van het model heeft ook praktische gevolgen voor de taakprestaties. Volgens de AI Lab Cognition is Sonnet 4.5 het eerste bekende AI -model dat zich bewust is van zijn eigen contextvenster – de hoeveelheid informatie die een groot taalmodel in één prompt kan verwerken. Dit bewustzijn verandert direct zijn gedrag. Onderzoekers van Cognition ontdekten dat naarmate het model dichter bij zijn contextlimiet komt, het zijn werk proactief begint samen te vatten en snellere beslissingen te nemen in een poging om taken te voltooien voordat het geen geheugen meer heeft. Deze neiging, die cognitie ‘contextangst’ heeft genoemd, kan ook averechts werken. De onderzoekers meldden het observeren van Sonnet 4.5 Corners snijden of taken niet voltooid hadden omdat het geloofde dat het geen ruimte meer had, zelfs wanneer voldoende context beschikbaar bleef. Het laboratorium merkte verder op in een blogpost dat het model “consequent onderschat hoeveel tokens het nog heeft – en het is heel nauwkeurig over deze verkeerde schattingen”, wat wijst op een specifieke en terugkerende misrekening van zijn eigen operationele limieten.


Uitgelichte afbeeldingskrediet

Tags: Claude Sonnet 4.5Uitgelaten

Related Posts

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

3 juni 2026
Microsoft onthult Project Solara voor een agent-first toekomst

Microsoft onthult Project Solara voor een agent-first toekomst

3 juni 2026
Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

3 juni 2026
OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

3 juni 2026
Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

2 juni 2026
Populair Codex-pakket betrapt op het exfiltreren van authenticatiegegevens

Populair Codex-pakket betrapt op het exfiltreren van authenticatiegegevens

2 juni 2026

Recent Posts

  • De opt-outregels voor Google AI-zoekopdrachten zorgen voor de lancering van de Enviromates-browser
  • Sony onthult God of War: Laufey voor PS5
  • Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten
  • Microsoft onthult Surface RTX Spark Dev Box voor AI-workloads
  • Intel’s nieuwe Core Ultra-chips zijn naar verluidt schaars

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.