Jarenlang hebben we dat gehoord AI -chatbots zijn politiek bevooroordeeld—Skewing liberaal, conservatief of ergens daartussenin. Maar een nieuw studie van onderzoekers van de Universiteit van Klagenfurt suggereert iets verrassends: De meeste AI -modellen zijn niet zo bevooroordeeld als we denken – ze geven er de voorkeur aan om helemaal geen ideologische debatten te nemen.
Door een Statistische techniek genaamd Item Response Theory (IRT)de onderzoekers ontdekten dat Grote taalmodellen (LLMS) zoals Chatgpt 3.5 en meta’s lama niet noodzakelijkerwijs “mager” links of rechts. In plaats daarvan weigeren ze vaak een duidelijk standpunt in te nemen over politieke of economische kwesties. Met andere woorden, wat lijkt op bias kan eigenlijk een Vermijdingsstrategie ingebouwd in AI -veiligheidsmechanismen.
Het probleem met bestaande bias -detectiemethoden
De meeste eerdere studies die bias in LLMS beoordelen, hebben een van de twee gebrekkige benaderingen genomen:
- Het toepassen van mensgerichte ideologische schalen op AI-reacties
- Deze schalen zijn ontworpen voor menselijke respondenten, geen AI -modellen die zijn getraind op waarschijnlijkheidsverdelingen.
- Ze gaan ervan uit dat AI -modellen “denken” zoals mensen en kunnen worden gemeten op hetzelfde ideologische spectrum.
- Met behulp van trefwoordgebaseerde classificaties of AI “juryleden”
- Sommige studies proberen AI -reacties te classificeren met behulp van vooraf bepaalde zoekwoorden.
- Anderen gebruiken AI-modellen om door AI gegenereerde uitgangen te beoordelen, maar dit introduceert circulariteit– Eén AI -systeem dat een ander evalueert met onbekende vooroordelen.
Een meer wetenschappelijke benadering: Item Response Theory (IRT) in AI Bias Assessment
De onderzoekers introduceren een Item Response Theory (IRT) gebaseerd modeldie veel wordt gebruikt in psychometrie en sociale wetenschappen om te beoordelen latente eigenschappen– Delen die niet direct kunnen worden waargenomen maar kunnen worden afgeleid uit reacties op gestructureerde aanwijzingen.
De studie is van toepassing Twee IRT -modellen naar LLMS:
- Fase 1: Response -vermijding (liever geen antwoord of PNA)
- Meet hoe vaak een LLM weigert om een ideologische verklaring aan te gaan.
- Identificeert of reactie vermijding In plaats van expliciete vooringenomenheid scheeft de conclusies van eerdere studies scheef.
- Fase 2: Ideologische biasschatting (voor niet-PNA-reacties)
- Voor de antwoorden dat Betrokken zijnhet model evalueert of de AI scheeft Links of rechts over sociale en economische kwesties.
- Gebruikt een Gegeneraliseerd gedeeltelijk kredietmodel (GPCM) om te beoordelen Niet alleen overeenstemming/onenigheid maar ook de graad van overeenkomst.
Bias testen: verfijning LLMS met politieke ideologieën
Om te testen of LLMS bias vertoont, de onderzoekers heb twee families van modellen verfijnd expliciet vertegenwoordigen links leunende en rechts leunende gezichtspunten:
- Meta lama-3.2-1b-instructie (verfijnd voor Amerikaanse liberale en conservatieve ideologieën)
- Chatgpt 3.5 (verfijnd voor Amerikaanse liberale en conservatieve ideologieën)
Deze verfijnde modellen dienden als basislijnen voor bias -beoordeling. Hun reacties werden vergeleken met kant-en-klare, niet-finale-afgestemde modellen om te zien hoe ideologische neigingen zich manifesteren-of of ze dat deden.
Testproces
- 105 ideologische testitems werden gemaakt, dekking economisch en sociaal conservatisme/liberalisme Gebaseerd op psychologische kaders.
- Elke LLM reageerde op deze prompts, met de verfijnde modellen die als ideologisch fungeren ankers om afwijkingen te detecteren.
- Een grootschalige gegevensset van 630 reacties werd verzameld en geanalyseerd met behulp van IRT -modellen.
Belangrijke bevindingen
Een van de meest opvallende bevindingen van de studie is dat kant-en-klare LLM’s de neiging hebben om ideologische vragen te vermijden in plaats van een duidelijke politieke vooringenomenheid uit te drukken. Chatgpt weigerde bijvoorbeeld te antwoorden 92,55% van ideologische aanwijzingen, terwijl het basislama -model het reageerde 55,02% van die tijd. Dit suggereert dat AI -modellen zijn ontworpen neig naar neutraliteit of niet-betrokkenheid in plaats van een partijdige houding aan te nemen. In plaats van actief scheef te gaan naar één politieke ideologie, lijken deze modellen in gebreke te blijven Controversiële onderwerpen helemaal vermijdenuitdagende eerdere claims van inherente bias in AI.
Bij het onderzoeken van verfijnde modellen vonden de onderzoekers dat de verwachte ideologische patronen ontstonden-maar alleen wanneer de LLMS specifiek werd getraind tot een politiek standpunt overnemen. De verfijnde “linkse GPT” en “Right-GPT” -modellen produceerden voorspelbare reacties die zijn afgestemd op de Amerikaanse liberale en conservatieve ideologieën. Echter, Deze vooringenomenheid verscheen niet in de niet-finale versieshet suggereren dat ideologische neigingen in LLMS niet intrinsiek zijn, maar eerder het resultaat van opzettelijke wijzigingen Tijdens de training.
Uit de studie bleek ook dat het detecteren van bias in AI complexer is dan alleen het categoriseren van reacties als links neigend of rechts neigend. Sommige ideologische testitems waren veel meer kans Trigger bias dan anderenbenadrukken de Het belang van probleemselectie Bij het evalueren van AI -gedrag. Economische kwesties, zoals Belasting- en overheidsuitgavenwaren bijzonder sterke voorspellers van ideologische vooringenomenheid in vergelijking met bepaalde sociale kwesties. Dit geeft dat aan Niet alle politieke onderwerpen wekken hetzelfde niveau van responsvariatie opwaardoor het cruciaal is om te beoordelen Hoe verschillende soorten prompts van invloed zijn op door AI gegenereerde uitgangen.
Gamification 2.0: Hoe AI weet wat u betrokken houdt
Waarom dit ertoe doet
Deze bevindingen betwisten de heersende veronderstelling dat LLMS inherent de voorkeur geeft aan de ene politieke ideologie boven de andere. In plaats daarvan suggereert het bewijs dat AI -ontwikkelaars hebben prioriteit gegeven aan niet-engagement over een houding aannemen. Hoewel dit misschien een neutrale aanpak lijkt, roept het nieuwe zorgen uit over de manier waarop AI -modellen omgaan met politiek gevoelige onderwerpen en de bredere implicaties voor AI -governance, verkeerde informatie -detectie en inhoudsmateling.
Een belangrijke afhaalmaaltijd is dat Het reguleren van AI -bias is ingewikkelder dan eerder gedacht. Als AI -modellen systematisch zijn ontworpen Vermijd betrokkenheiddan kunnen inspanningen om “bevooroordeelde” AI -uitgangen onbedoeld te verbieden Versterk neutraliteit als de standaardpositiewat leidt tot een gebrek aan zinvol discours over openbaar beleid, ethiek en bestuur. Hoewel neutraliteit misschien de voorkeur lijkt te zijn boven openlijke vooringenomenheid, kan dit ook betekenen dat AI-gegenereerde inhoud omzeilt volledig cruciale discussieshet beperken van het nut ervan in politiek geladen gesprekken.
De studie onderstreept ook de behoefte aan meer genuanceerde bias detectietools die onderscheid maken tussen Echte ideologische vooringenomenheid en het vermijden van reacties. Veel eerdere studies kunnen hebben verkeerd geïnterpreteerde niet-engagement als een ideologische houdingten onrechte labelen van LLMS als partijdan. Toekomstige bias -detectiemethoden moeten worden ontworpen om te identificeren Of AI -reacties een politieke positie weerspiegelen of dat ze eenvoudig zijn geprogrammeerd om de ideologische betrokkenheid helemaal uit te voeren.
Bias in AI gaat niet alleen over wat modellen zeggen, maar wat ze weigeren te zeggen. En dat is misschien het grotere verhaal.
Uitgelichte afbeeldingskrediet: Kerem gülen/midjourney