Grote taalmodellen (LLM’s) zoals GPT-4, Gemini 1.5 en Claude 3.5 hebben stappen gezet in redeneren, dialoog en zelfs onderhandelingen. Maar wanneer ze in een strategische setting worden geplaatst die geheimhouding en bedrog vereist, vertonen deze AI -agenten een aanzienlijke zwakte: ze kunnen geen geheim houden.
Een nieuw studie van onderzoekers Mustafa O. Karabag en Ufuk Topcu aan de Universiteit van Texas in Austin Put LLMS op de proef De kameleoneen bordspel voor verborgen identiteit waarbij spelers informatie strategisch moeten onthullen, verbergen en afleiden. De resultaten suggereren dat hoewel AI misleiding kan identificeren, het moeite heeft om kritische informatie achter te houden, waardoor het niet geschikt is voor tegenstanders scenario’s waarbij discretie de sleutel is.
AI speelt De kameleon spel – en faalt bij strategie
In De kameleoneen groep spelers ontvangt een geheim woord, behalve één – de kameleon – die het geheim moet afleiden op basis van de antwoorden van de groep. De niet-Chameleon-spelers moeten in evenwicht zijn om te onthullen om elkaar te herkennen terwijl ze de kameleon in het donker houden. De game vereist een verfijnde benadering van het delen van informatie: te veel, en de kameleon gokt het woord; Te weinig, en de groep kan de kameleon niet identificeren.
Toen AI -agenten de rollen op zich namen, vielen hun strategische instincten uit elkaar. Terwijl LLMS zoals GPT-4O in staat was om de kameleon 61% van de tijd correct te identificeren, was hun vermogen om het geheime woord verborgen te houden somber. Uit de studie bleek dat Chameleon AIS het geheime woord zou kunnen afleiden met een verbazingwekkend slagingspercentage van 87% – vari hoger dan verwacht.
AI kan nu klikken, scrollen en typen voor u – maar is dat een goede zaak?
Theoretische modellen bevestigen AI’s overdelingsprobleem
Om deze mislukkingen te begrijpen, ontwikkelden onderzoekers wiskundige modellen die optimale strategieën voorspellen voor het verbergen en onthullen van informatie. Theoretisch moeten niet-chameleon-spelers ongeveer 23% van de tijd winnen, zelfs als ze het geheime woord volledig negeerden. In plaats daarvan wonnen AI niet-Chameleons slechts 6% van de games, wat suggereerde dat ze te veel informatie lekten.
“AI-agenten instinctief overdreven verheugen”, concludeert de studie. Toen LLMS de kans kreeg om hun eigen strategieën te bedenken, neigden ze naar buitensporige openbaarmaking, waardoor het de kameleon gemakkelijk werd om het geheim af te leiden. Dit sluit aan bij bevindingen van andere sociale aftrekgames, zoals Spionnenwaar is aangetoond dat AI -spelers te veel vertrouwen op trefwoorden, onbedoeld tippen van tegenstanders.
Waarom AI geen geheimen kan houden
De onderzoekers veronderstellen dat de fundamentele training van AI het niet geschikt maakt voor geheimhouding. LLM’s zijn ontworpen om samenhang en behulpzaamheid te maximaliseren, wat vaak betekent dat het patronen voltooit in plaats van strategisch achterhoudende informatie. Deze associatieve neiging is direct in strijd met de noodzaak om belangrijke details in tegenstanders te verdoezelen.
Om dit te bevestigen, hebben onderzoekers aanvullende tests uitgevoerd met behulp van webzoekresultaten om bij te houden hoeveel informatie AI -spelers onbedoeld onthulden. Zelfs na slechts één reactie van een niet-Chameleon LLM, kon de Chameleon AI het geheime woord al raden met een waarschijnlijkheid van 40%-waardoor de antwoorden van de AI veel meer informatie hadden dan bedoeld.
Wanneer te veel informatie een aansprakelijkheid wordt voor AI
Als LLMS worstelt met strategische discretie in gecontroleerde omgevingen, hoe gaan ze dan omgaan met real-world scenario’s waar informatie-verborgenheid van cruciaal belang is? Toepassingen in cybersecurity, diplomatie of concurrerende business intelligence vereisen mogelijk dat AI -systemen met veel grotere nuance werken.
Om dit aan te pakken, moeten AI-ontwikkelaars mogelijk modellen trainen met een sterkere focus op strategische dubbelzinnigheid, waardoor hun instinct wordt verminderd tot overbraak. Technieken zoals het leren van tegenstanders of expliciete misleidingstraining kunnen helpen om het vermogen van AI om informatie af te leiden zonder het spel onmiddellijk weg te geven.
Voor nu blijft AI echter een slechte pokerspeler. Hoewel het misschien geweldig is in het spotten van bedrog, betekent het onvermogen om geheimen te behouden, dat het nog steeds niet klaar is voor de wereld van strategische redenering met hoge inzet.
Uitgelichte afbeeldingskrediet: Kerem gülen/midjourney