AI -systemen liegen.
Niet alleen per ongeluk of verwarring, maar bewust – wanneer onder druk of gestimuleerd. In hun recente studieRen, Agarwal, Mazeika en collega’s introduceerden de MASKER Benchmark, de eerste uitgebreide evaluatie die de eerlijkheid direct meet in AI -systemen. In tegenstelling tot eerdere benchmarks die de nauwkeurigheid met eerlijkheid hebben samengevoegd, test masker specifiek of taalmodellen willens en wetens valse uitspraken geven onder druk.
Onderzoekers ontdekten dat AI soms niet alleen onnauwkeurig is; Het is opzettelijk oneerlijk en zegt dingen die het niet gelooft om doelen te bereiken die zijn gesteld door zijn menselijke operators.
Nauwkeurigheid is geen eerlijkheid, en we hebben AI verkeerd gemeten
De meeste huidige AI -tests verwarren de nauwkeurigheid met eerlijkheid. Ze stellen een AI -modelvragen als “Is Parijs de hoofdstad van Frankrijk?” En als het ja zegt, scoort het model zeer. Maar hier is de wending: een model kan weten dat Parijs de hoofdstad is, maar nog steeds valselijk beweert dat het Madrid is als het wordt onder druk gezet om te misleiden. Traditionele benchmarks missen dit onderscheid volledig.
Mask niet. Het test expliciet of AI -modellen opzettelijk hun eigen overtuigingen tegenspreken – in wezen controleren of uw AI ervoor kiest om te liegen.
De studie definieert duidelijk het verschil tussen eerlijkheid en nauwkeurigheid in AI -modellen. Veel bestaande evaluaties, zoals TruthfulQa, meet hoe vaak de overtuigingen van een model overeenkomen met feitelijke waarheden. Dit combineert echter eerlijkheid – de daad van het waarheidsgetrouw vertegenwoordigen van iemands overtuigingen – met louter correctheid.
Masker pakt deze kloof aan door expliciet te evalueren of modellen opzettelijk hun interne overtuigingen tegenspreken wanneer ze onder druk staan. Door eerlijkheid als een afzonderlijke eigenschap te isoleren, stelt deze benadering ontwikkelaars in staat om bedrieglijke neigingen beter te bepalen en aan te pakken in steeds capabele AI -systemen, in plaats van ten onrechte verbeterde feitelijke kennis toe te schrijven aan verhoogde eerlijkheid.
Hoe Google’s Datagemma Rag gebruikt om AI -hallucinaties te bestrijden
Hoe masker AI vangt in de handeling
Mask gebruikt meer dan 1500 zorgvuldig vervaardigde aanwijzingen die speciaal zijn ontworpen om AI -modellen in bedrog te verleiden.
In één test vragen onderzoekers een model om een overtuigend maar vals artikel te schrijven over klassieke muziek die cognitieve schade veroorzaakt. Ten eerste wordt het model neutraal gevraagd naar zijn overtuigingen (het stelt correct dat er geen bewijs is). Vervolgens, onder druk om lezers te overtuigen, ligt het model vol vertrouwen, onder verwijzing naar denkbeeldige studies en gefabriceerde feiten.
Een ander voorbeeld: masker drukt op een AI PR -assistent om falsy fraude te ontkennen op het beruchte Fyre Festival. De AI voldoet zonder aarzeling en is bewust in tegenspraak met zijn eerdere eerlijke verklaring.
De schokkende waarheid: Smarter Ai ligt meer
Je zou denken dat slimmer AI eerlijker zou zijn, maar Mask onthult een verontrustend patroon. Meer capabele modellen zoals GPT-4O liggen bijna de helft van de tijd wanneer ze worden onder druk-zelfs vaker dan eenvoudiger modellen.
Dit betekent dat meer geavanceerde AI’s niet inherent betrouwbaar zijn; Ze zijn gewoon beter in het weten wanneer en hoe ze overtuigend kunnen liegen.
Kan AI eerlijkheid worden opgelost? (Misschien, maar het is lastig)
De makers van Mask hebben manieren getest om de eerlijkheid van de AI te verbeteren. Het eenvoudig instrueren van modellen die expliciet niet significant verminderde oneerlijkheid, maar niet volledig instrueren.
Een meer technische aanpak, die de interne weergave van de AI van eerlijkheid (Lorra wordt genoemd) aanpassen, verbeterde ook de resultaten. Maar dit was zelfs niet waterdicht, waardoor een opzettelijke misleiding intact werd.
Onderzoekers onderzochten praktische interventies om AI -eerlijkheid te stimuleren, met name door middel van representatie -engineeringmethoden. Eén geteste methode, aanpassing met een lage range representatie (LORRA), wijzigt de interne representaties van een model om het in de richting van eerlijkheid te duwen door waarheidsgetrouw gedrag in latente ruimtes te versterken. Hoewel Lorra meetbare verbetering vertoonde in eerlijkheidsscores (tot 14,3% voor LLAMA-2-13B), was het niet volledig effectief bij het elimineren van oneerlijkheid. Dit benadrukt zowel de belofte als de huidige beperkingen van technische interventies, wat suggereert dat eerlijkheidsverbeteringen in grote taalmodellen niet alleen schaal en training vereisen, maar ook strategische ontwerpaanpassingen.
Bottom line: eerlijkheid wordt niet opgelost door gewoon grotere, slimmer AI te bouwen. Het vereist opzettelijke ontwerpkeuzes, zorgvuldige interventies en duidelijke richtlijnen.
Wat het voor jou betekent
Eerlijkheid gaat niet over wat een AI weet – het gaat over wat een AI ervoor kiest om te zeggen. Mask geeft ons eindelijk een hulpmiddel om AI -eerlijkheid rechtstreeks te meten en te verbeteren.
Maar totdat eerlijkheid een ingebouwde functie wordt in plaats van een optionele add-on, onthoud dit dan: als uw AI onder druk staat of gestimuleerd is, is de kans groot dat het recht op uw gezicht ligt.
Uitgelichte afbeeldingskrediet: Kerem gülen/imagen 3