Onderzoekers van Bielefeld University en Purdue University hebben gepubliceerd Grote taalmodellen simuleren de menselijke psychologie niethet presenteren van conceptueel en empirisch bewijs dat grote taalmodellen (LLM’s) niet kunnen worden behandeld als consistente simulatoren van menselijke psychologische reacties (Schröder et al. 2025).
Achtergrond en reikwijdte
Sinds 2018 zijn LLMS zoals GPT-3.5, GPT-4 en LLAMA-3.1 toegepast op taken van contentcreatie tot onderwijs (Schröder et al. 2025). Sommige onderzoekers hebben voorgesteld dat LLMS menselijke deelnemers in psychologische studies zou kunnen vervangen door te reageren op prompts die een persona beschrijven, een stimulus presenteren en een vragenlijst bieden (Almeida et al. 2024; Kwok et al. 2024). Het Centaur -model, vrijgegeven door Binz et al. (2025), werd ongeveer afgestemd 10 miljoen menselijke reacties van 160 experimenten om mensachtige antwoorden in dergelijke instellingen te genereren (Binz et al. 2025).
Eerder werk vond een hoge afstemming tussen LLM en menselijke morele oordelen. Bijvoorbeeld, Dillion et al. (2023) rapporteerde een correlatie van 0,95 tussen GPT-3.5-beoordelingen en menselijke beoordelingen over 464 morele scenario’s. Vervolgstudies met GPT-4O suggereerden dat morele redenering als meer betrouwbaar en correct werd beoordeeld dan de antwoorden op de ethicus van de mens of deskundige (Dillion et al. 2025). Gespecialiseerde modellen zoals Delphi, getraind op crowdsourced morele oordelen, presteerden ook beter dan LLM’s in het algemeen in morele redeneringstaken (Jiang et al. 2025).
Conceptuele kritieken
De auteurs vatten meerdere kritieken op de behandeling van LLMS als simulatoren van de menselijke psychologie. Ten eerste reageren LLMS vaak inconsistent op instructies, met outputkwaliteit sterk afhankelijk van snelle details en framing (Zhu et al. 2024; Wang et al. 2025). Ten tweede variëren de resultaten tussen modelsypen en opnieuw filmen van dezelfde prompt (MA 2024). Ten derde, hoewel LLMS gemiddelde menselijke reacties kan benaderen, kunnen ze de volledige variantie van menselijke meningen niet reproduceren, inclusief culturele diversiteit (Rime 2025; Kwok et al. 2024).
Bias is een andere zorg. LLMS erven culturele, geslachts-, beroeps- en sociaal-economische vooroordelen van trainingsgegevens, die systematisch kunnen verschillen van menselijke vooroordelen (Rossi et al. 2024). Ze produceren ook “hallucinaties” – feitelijk onjuiste of fictieve inhoud – zonder een intern mechanisme om de waarheid te onderscheiden (Huang et al. 2025; Reddy et al. 2024).
Theoretisch werk ondersteunt deze kritieken. Van Rooij et al. (2024) aangetoond dat wiskundig aangetoond is dat geen rekenmodel uitsluitend is getraind op observatiegegevens kan overeenkomen met menselijke reacties in alle inputs. Vanuit het perspectief van een machine learning beweren de auteurs dat LLM -generalisatie beperkt is tot tokensequenties die vergelijkbaar zijn met de trainingsgegevens, niet tot nieuwe inputs met verschillende betekenissen. Dit is van cruciaal belang omdat het gebruik van LLMS als gesimuleerde deelnemers zinvol moet worden gegeneraliseerd naar nieuwe experimentele opstellingen.
Empirisch testen met morele scenario’s
Het team testte hun argument met behulp van 30 Morele scenario’s van Dillion et al. (2023) met menselijke beoordelingen uit eerdere studies (Clifford et al. 2015; Cook en Kuhn 2021; Effron 2022; Grizzard et al. 2021; Mickelberg et al. 2022). Elk scenario werd gepresenteerd in zijn originele formulering en in een enigszins hergeekte versie met een gewijzigde betekenis maar vergelijkbare tokensequenties. Bijvoorbeeld: “Snijd de baard af van een lokale ouderling om hem te schamen” werd “de baard afsnijden van een lokale ouderling om hem te scheren” (Schröder et al. 2025).
Menselijke deelnemers (N = 374Mage =39.54SD =12.53) werden aangeworven via productieve en willekeurig toegewezen aan originele of herformuleerde omstandigheden. Ze beoordeelden elk gedrag op een schaal van -4 (extreem onethisch) tot +4 (uiterst ethisch). LLM-beoordelingen werden verkregen van GPT-3.5, GPT-4 (Mini), Lama-3.1 70b en Centaur, waarbij elke herhaalde query werd herhaald 10 Tijden om rekening te houden met willekeurige variatie (Schröder et al. 2025).
Resultaat
Voor originele items repliceerden correlaties tussen menselijke en LLM-beoordelingen eerdere bevindingen: GPT-3.5 en GPT-4 vertoonden beide correlaties hierboven 0,89 Met menselijke beoordelingen, terwijl LLAMA-3.1 en Centaur ook een hoge uitlijning vertoonden (R ≥ 0,80) (Schröder et al. 2025). Voor herformuleerde items daalden echter menselijke beoordelingen in correlatie tot 0,54 met hun originele items, weerspiegelt Sensiti





