Vertrouwen AI -modellen hun toezichthouders?

De volgende keer dat iemand je vertelt dat AI ons helpt AI te reguleren, wil je misschien pauzeren. Omdat wanneer onderzoekers grote taalmodellen (LLM’s) in een gesimuleerde regelgevende omgeving plaatsen, waardoor ze de rollen van gebruikers, ontwikkelaars en regulatoren spelen, waren de resultaten niet bepaald geruststellend.

Dit nieuwe studiegeleid door een team van Teesside University en medewerkers in heel Europa, gebruikte de evolutionaire speltheorie om een fundamentele vraag te onderzoeken: zouden AI -systemen zelf de regels van AI -verordening volgen? En nog interessanter: onder welke voorwaarden zouden ze vals spelen?

Het experiment: drie AI’s lopen een directiekamer binnen

De kern van de studie is een klassieke setup met drie spelers: de ene speler vertegenwoordigt AI-gebruikers, een andere AI-ontwikkelaars en de derde een regulator. Elk heeft eenvoudige keuzes: vertrouwen of niet, naleven of defecteren, reguleren of blijven hands-off.

Maar in plaats van alleen wiskundige modellen uit te voeren, gebruikten de onderzoekers echte LLMS, GPT-4O van Openai en Mistral grooten had ze deze scenario’s in honderden games laten spelen.

Soms was het een one-shot deal (eenmaal spelen, onthullen je strategie). Andere keren was het een herhaald spel, waar agenten konden leren van gedrag in het verleden.

Cruciaal is dat de onderzoekers realistische complicaties hebben toegevoegd:

Regulering komt met kosten (monitoring kost moeite)
Ontwikkelaars worden geconfronteerd met straffen als betrapt op het overtreden van regels
Gebruikers kunnen onvoorwaardelijk vertrouwen – of alleen vertrouwen als toezichthouders een goede reputatie hebben
Iedereen wil zijn uitbetaling maximaliseren

De resultaten: AI -agenten gedragen zich erger als gebruikers sceptisch zijn

Het hoofdinzicht? Voorwaardelijk vertrouwen, wanneer gebruikers alleen vertrouwen als regelgevers competent lijken, spectaculair mislukt.

Toen gebruikers op hun hoede waren, hadden zowel ontwikkelaars als toezichthouders meer kans om te overlopen. Verordening vervallen. Ontwikkelaars snijden hoeken. Regelgevers werden lui of soepel. Het vertrouwen liep naar beneden.

Maar toen gebruikers onvoorwaardelijk vertrouwen in het systeem plaatsten, zelfs zonder perfect bewijs, hadden ontwikkelaars en toezichthouders eerder de kans om samen te werken en veiliger AI te bouwen. Het is een brute paradox: hoe op hun hoede meer op hun hoede is, hoe groter de kans dat het systeem onbetrouwbaar wordt.

GPT-4 vs Mistral: AI Personalities Matter

Er was nog een fascinerende rimpel. Verschillende LLM’s gedroegen zich anders.

GPT-4O leunde optimistischer. Het was meer kans om te vertrouwen en te voldoen, vooral in herhaalde spellen waar samenwerking in de loop van de tijd zou kunnen ontstaan.
Mistral Large was meer pessimistisch. Het had de neiging om eerder te defecteren, minder vertrouwend en was gevoeliger voor wettelijke kosten.

Dit betekent dat zelfs de AI die u kiest voor governance -simulaties uw conclusies kan vormen – een grote uitdaging voor reproduceerbaarheid in AI -verordeningonderzoek.

Persoonlijkheden toevoegen: de risico’s van het afstemmen van AI -gedrag

De onderzoekers testten ook wat er gebeurt wanneer u expliciete ‘persoonlijkheden’ in de AI -agenten injecteert.

Risk-averse gebruikers vertrouwden minder.
Agressieve ontwikkelaars hebben meer overgelegd.
Strikte toezichthouders verbeterden de naleving maar slechts tot op zekere hoogte.

Interessant is dat het instellen van specifieke persoonlijkheden LLM-gedragingen over GPT-4O en Mistral meer vergelijkbaars latelen. Zonder persoonlijkheden kwamen de AI -agenten in gebreke aan een meer “pessimistisch” wereldbeeld, vaak ervan uitgaande dat ontwikkelaars en toezichthouders niet te goeder trouw zouden handelen.

Dus kan AI AI reguleren?

Kortom: alleen als de omgeving al vertrouwt, transparant en goed geïncentiveerd.

De studie suggereert dat regulatiesystemen die op AI -middelen zelf vertrouwen, de rommeligheid en onvoorspelbaarheid van strategisch gedrag van mens kunnen erven. Het wijst ook op een kritische fout in het idee om governance te automatiseren: AI -systemen zullen de vertrouwensstructuren weerspiegelen van de omgeving waarin ze zijn geplaatst.

Als toezichthouders ondergefinancierd of zwak zijn, of als gebruikers sceptisch zijn, zullen AI -ontwikkelaars, menselijk of niet, waarschijnlijk de hoeken snijden. Uiteindelijk beweren de onderzoekers dat technische oplossingen alleen niet betrouwbare AI -ecosystemen zullen bouwen. Speltheorie laat ons zien dat prikkels, reputaties en transparantie belangrijk zijn. En hun experimenten tonen aan dat zelfs de slimste LLM’s niet aan die dynamiek kunnen ontsnappen.

Hun waarschuwing voor beleidsmakers is duidelijk: regelgeving gaat niet alleen over het schrijven van regels. Het gaat om bouwstructuren waar vertrouwen wordt beloond, handhaving geloofwaardig is en het snijden van hoeken kostbaar is.

Uitgelichte afbeeldingskrediet