Anthropic heeft zijn excuses aangeboden voor het in het geheim implementeren van beperkende maatregelen op zijn AI-model, Claude Fable 5, via onzichtbare vangrails, die gebruikers, waaronder onderzoekers en concurrenten, hebben belemmerd. Het bedrijf heeft aangekondigd dat het nu transparanter zal zijn over wanneer deze beperkingen worden geactiveerd, zelfs als dit ertoe leidt dat Fable meer vragen afwijst.
We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.
Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…
— ClaudeDevs (@ClaudeDevs) June 11, 2026
Fable is het inaugurele model in de Mythos-klasse van AI-systemen van Anthropic, waarvan het bedrijf heeft gewaarschuwd dat het aanzienlijke risico’s zou kunnen opleveren als het op grote schaal zou worden vrijgegeven. Als reactie op deze risico’s lanceerde Anthropic Fable met ingebouwde beveiligingen die zijn toegesneden om te voorkomen dat het bepaalde ‘risicovolle’ vragen beantwoordt, met name met betrekking tot modeldistillatie.
In de systeemkaart van Fable onthulde Anthropic dat het de antwoorden van het model zou wijzigen en verslechteren als gebruikers zonder voorafgaande kennisgeving zouden proberen te distilleren. In de toekomst zullen zoekopdrachten die worden geïdentificeerd als distillatiepogingen automatisch terugkeren naar Claude Opus 4.8, het voorgaande vlaggenschipmodel. Anthropic streeft ernaar gebruikers te informeren wanneer hun vragen terugkeren naar Opus 4.8 en zegt: “Je zult dit elke keer zien als dit gebeurt.”
Deze gewijzigde aanpak weerspiegelt de manier waarop Fable andere risicovolle zoekopdrachten beheert en deze door Opus 4.8 stuurt, tenzij geblokkeerd door bredere veiligheidsregels met betrekking tot onderwerpen als drugs of wapens. Sommige beperkingen hebben echter kritiek opgeleverd omdat ze buitensporig breed waren, waardoor Fable bijna onbruikbaar werd voor basisvragen op gebieden als biologie, zoals opgemerkt door Anthropic.
Anthropic erkende dat zijn aanvankelijke beslissing voor onzichtbare beveiligingen misleidend was en stelde: “Onzichtbare beveiligingen kunnen nauwkeuriger worden gericht, waardoor we snel kunnen verzenden met zeer weinig valse positieven … en dat was de verkeerde afweging.”
De aanpassingen volgen op een aanzienlijke reactie van de AI-onderzoeksgemeenschap als reactie op de strategie van Anthropic om gebruikers die ervan worden verdacht Fable te distilleren voor competitieve doeleinden dynamisch te beperken. In zijn systeemkaart rechtvaardigde Anthropic de noodzaak om zich op dergelijke verzoeken te richten, door uit te leggen dat het gebruik van zijn modellen om concurrerende systemen te creëren in strijd is met de Servicevoorwaarden van het bedrijf. Het bedrijf heeft ook bepaalde concurrenten, waaronder Chinese bedrijven als DeepSeek, ervan beschuldigd zijn modellen op “industriële” schaal oneerlijk te verwateren.





