GPT-4.5 Out-humans mensen in een nieuwe test

Openai’s GPT-4.5 overtroffen Mensen in een recente Turing-test van UC San Diego, laten zien hoe gemakkelijk mensen AI kunnen verwarren met een echt gesprek door samen te vullen met side-by-side chats.

De Turing-test heeft al lang gemeten of een machine als mens kan passeren door middel van tekstgebaseerde interactie. In deze bijgewerkte versie praatten bijna 300 deelnemers uit de taal- en cognitielab van UC San Diego elk met een mens en een AI voordat ze besloten welke welke was.

GPT-4.5, uitgerust met een popcultuur-savvy persona, overtuigde de deelnemers dat het 73 procent van de tijd mens was-nou boven de 50 procent benchmark die historisch werd gebruikt om een pass te definiëren. Werkelijke mensen hebben deelnemers niet zo vaak voor de gek gehouden.

Andere systemen waren LLAMA 3 van Meta, Openai’s GPT-4O en Eliza, een van de vroegste chatbots. Zonder een gedefinieerde persona daalde het slagingspercentage van GPT-4.5 tot 36 procent en scoorde GPT-4O slechts 21 procent.

Onderzoekers merken op dat het doorlopen van de Turing -test niet betekent dat een AI de taal als een persoon echt begrijpt. Toch onderstrepen de resultaten hoe overtuigend deze modellen het menselijk gesprek kunnen nabootsen, vooral wanneer ze specifieke rollen krijgen. De bevindingen worden momenteel gepubliceerd op een preprint-server, met een peer-reviewed release in behandeling.

Uitgelichte afbeeldingskrediet