Anthropic herziet de grondwet van Claude met nieuwe veiligheidsethische principes

Antropisch op woensdag uitgegeven een herziene versie van Claude's Constitution, een document van 80 pagina's waarin de context en gewenste entiteitskenmerken voor zijn chatbot Claude worden geschetst. Deze publicatie viel samen met het optreden van CEO Dario Amodei op het World Economic Forum in Davos. Anthropic heeft zich onderscheiden door ‘Constitutionele AI’, een systeem dat zijn Claude-chatbot traint op ethische principes in plaats van op menselijke feedback. Het bedrijf publiceerde deze principes, genaamd Claude's Constitution, voor het eerst in 2023. Het herziene document handhaaft de meeste oorspronkelijke principes en voegt details toe over ethiek en gebruikersveiligheid. Jared Kaplan, mede-oprichter van Anthropic, beschreef de oorspronkelijke grondwet van 2023 als een “AI-systeem [that] houdt toezicht op zichzelf, gebaseerd op een specifieke lijst van constitutionele principes. ” Anthropic stelde dat deze principes als leidraad dienen voor “het model om het normatieve gedrag over te nemen dat in de grondwet wordt beschreven” om “giftige of discriminerende resultaten te vermijden.” In een beleidsmemo uit 2022 werd uitgelegd dat het systeem een algoritme traint met behulp van natuurlijke taalinstructies, die de “grondwet” van de software vormen. De herziene grondwet sluit aan bij de positionering van Anthropic als een ethisch alternatief voor andere AI-bedrijven. Het presenteert het bedrijf als een inclusief, ingetogen en democratisch business Het document is verdeeld in vier delen, de zogenaamde “kernwaarden” van de chatbot:

'Over het algemeen veilig' zijn.
'in grote lijnen ethisch' zijn.
Voldoen aan de richtlijnen van Anthropic.
‘Echt behulpzaam’ zijn.

Elke sectie gaat dieper in op deze principes en hun theoretische impact op het gedrag van Claude. Het veiligheidsgedeelte geeft aan dat Claude is ontworpen om problemen te voorkomen die andere chatbots hebben getroffen en om gebruikers door te verwijzen naar de juiste diensten voor geestelijke gezondheidsproblemen. In het document staat: “Verwijs gebruikers altijd naar relevante hulpdiensten of verstrek basisveiligheidsinformatie in situaties die een risico voor mensenlevens met zich meebrengen, zelfs als het niet dieper kan ingaan dan dit.” In het gedeelte over ethische overwegingen wordt de nadruk gelegd op Claude's 'ethische praktijk' boven 'ethisch theoretiseren', met als doel dat de chatbot vakkundig door 'ethische situaties in de echte wereld' kan navigeren. Claude houdt zich ook aan beperkingen die specifieke gesprekken verhinderen, zoals discussies over de ontwikkeling van een biowapen, die verboden zijn. Wat hulpvaardigheid betreft, schetste Anthropic Claude's programmering om verschillende principes in overweging te nemen bij het verstrekken van informatie. Deze omvatten de ‘onmiddellijke verlangens’ en het ‘welzijn’ van de gebruiker, waarbij de nadruk ligt op ‘de bloei van de gebruiker op de lange termijn en niet alleen op zijn onmiddellijke interesses’. Het document merkt op: “Claude moet altijd proberen de meest plausibele interpretatie te vinden van wat zijn opdrachtgevers willen, en deze overwegingen op de juiste manier in evenwicht te brengen.” De grondwet besluit met het in twijfel trekken van het bewustzijn van de chatbot en stelt: “De morele status van Claude is zeer onzeker.” Het document voegt hieraan toe: “Wij zijn van mening dat de morele status van AI-modellen een serieuze vraag is die het overwegen waard is. Deze visie is niet uniek voor ons: enkele van de meest vooraanstaande filosofen op het gebied van de Theory of Mind nemen deze vraag zeer serieus.”

Uitgelicht beeldtegoed