Een nieuwe studie van New York University en de Universiteit van Tübingengeleid door Hanna M. Dettki, Brenden M. Lake, Charley M. Wu en Bob Rehdervraagt of AI kan redeneren over oorzaken zoals mensen doen of dat het in plaats daarvan op patronen afhankelijk is. Hun paper, ‘Reden grote taalmodellen causaal zoals wij? Nog beter?”, Probeert vier populaire modellen-GPT-3.5, GPT-4O, Claude-3 en Gemini-Pro-om te zien of ze complexe causale structuren begrijpen of alleen de menselijke taal nabootsen.
Hoe de studie causaal redeneren in AI testte
De onderzoekers vergeleken de menselijke redenering met vier LLMS –GPT-3.5, GPT-4O, Claude-3 en Gemini-pro– gebruik Collider -grafiekeneen klassieke test in causale gevolgtrekking. Deelnemers (zowel mens als AI) werd gevraagd om de kans op een evenement te evalueren gegeven bepaalde causale relaties. De kernvraag: redeneren llms causaal op dezelfde manier als mensen doen, of volgen ze een andere logica?
AI verwerkt nu moleculaire simulaties: dankzij Mdcrow
Belangrijkste bevindingen: AI kan redeneren, maar niet zoals mensen
De resultaten onthulden een spectrum van causaal redeneren onder AI -modellen.
- GPT-4O en Claude-3 toonde het meest Normatief redenerenwat betekent dat ze de waarschijnlijkheidstheorie nader volgden dan menselijke deelnemers.
- Gemini-Pro en GPT-3.5aan de andere kant, meer weergegeven associatieve redeneringwat betekent dat ze meer afhankelijk waren van statistische patronen in plaats van op strikte causale logica.
- Alle modellen vertoonden vooroordelenafwijken van de verwachte onafhankelijkheid van oorzaken. Echter, Claude-3 was het minst bevooroordeeldwat betekent dat het zich het meest hechtte aan wiskundige causale normen.
Interessant genoeg Mensen passen vaak heuristiek toe die afwijken van de strikte waarschijnlijkheidstheorie – zoals het “uitleg” -effect, waarbij het observeren van de ene oorzaak de kans op een andere vermindert. Hoewel AI -modellen dit effect herkenden, varieerden hun antwoorden aanzienlijk op basis van trainingsgegevens en context.
AI versus menselijk redeneren: een fundamenteel verschil
Een van de meest intrigerende inzichten uit de studie is dat LLMS Biedt niet alleen de menselijke redenering na– Ze benaderen causaliteit anders. In tegenstelling tot mensen, wiens oordelen relatief stabiel bleven in verschillende contexten, AI -modellen hebben hun redenering aangepast, afhankelijk van domeinkennis (bijv. Economie versus sociologie).
- Vooral GPT-4O behandelde causale verbindingen als deterministischervan uitgaande dat bepaalde oorzaken altijd specifieke effecten hebben.
- Mensen daarentegen factor in onzekerheiderkennen dat causale relaties niet altijd absoluut zijn.
Dit suggereert dat terwijl AI kan zijn preciezer In bepaalde gestructureerde taken, het mist de flexibiliteit van menselijk denken bij het omgaan met dubbelzinnige of multi-causale situaties.
Waarom dit belangrijk is voor AI in de besluitvorming
De studie onthult een belangrijke beperking: LLMS mag causale kennis niet generaliseren buiten hun trainingsgegevens zonder sterke begeleiding. Dit heeft cruciale implicaties voor het inzetten van AI in real-world besluitvorming, van medische diagnoses tot economische voorspelling.
LLMS kan beter presteren dan mensen in waarschijnlijkheidsgebaseerde inferentie, maar hun redenering blijft fundamenteel anders-het ontbreken van de intuïtieve, adaptieve logica die mensen gebruiken bij dagelijkse probleemoplossing.
Met andere woorden, AI kan redeneren over causaliteit – maar niet helemaal zoals wij.
Uitgelichte afbeeldingskrediet: Kerem gülen/ideogram