Het nieuwste model van OpenAI demonstreert een onverwacht vermogen bij het oplossen van wiskundige problemen op hoog niveau, zo blijkt uit tests uitgevoerd door software-ingenieur en voormalig kwantitatief onderzoeker Neel Somani. Somani zag dat het model na 15 minuten verwerking van een probleem in ChatGPT een volledige oplossing genereerde, waarna het bewijs werd geformaliseerd met de Harmonic-tool, wat de nauwkeurigheid ervan bevestigde. Hij verklaarde dat hij ernaar streefde een basislijn vast te stellen voor het vermogen van grote taalmodellen (LLM's) om open wiskundige problemen op te lossen. De gedachtegang van het model beriep zich op wiskundige axioma's, waaronder de formule van Legendre, het postulaat van Bertrand en de stelling van de Davidster. Het vond een Math Overflow-post uit 2013 van de Harvard-wiskundige Noam Elkies, die een soortgelijke oplossing voor het probleem aanbood, maar het uiteindelijke bewijs van ChatGPT verschilde en bood een completere oplossing voor een versie van een probleem van wiskundige Paul Erdős. Sinds de release van GPT 5.2, die Somani omschreef als “anekdotisch beter in wiskundig redeneren dan eerdere versies”, heeft een groeiend aantal opgeloste problemen vragen doen rijzen over het vermogen van LLM's om de menselijke kennis te vergroten. Somani concentreerde zich op de Erdős-problemen, een verzameling van meer dan 1.000 vermoedens die online worden bijgehouden en die variëren qua onderwerp en moeilijkheidsgraad. De eerste autonome oplossingen voor deze problemen kwamen in november naar voren uit AlphaEvolve, een door Gemini aangedreven model. Meer recentelijk hebben Somani en anderen ontdekt dat GPT 5.2 bedreven is in wiskunde op hoog niveau. Sinds december zijn 15 problemen op de Erdős-website verschoven van ‘open’ naar ‘opgelost’, waarbij 11 oplossingen AI-modellen crediteren. Wiskundige Terence Tao, over zijn GitHub-paginamerkte acht problemen op waarbij AI-modellen betekenisvolle autonome vooruitgang boekten en zes gevallen waarin vooruitgang gepaard ging met het lokaliseren en voortbouwen op eerder onderzoek. Tao vermoedde op Mastodon dat de schaalbare aard van AI-systemen ze ‘beter geschikt maakt om systematisch te worden toegepast op de ‘lange staart’ van obscure Erdős-problemen, waarvan er vele feitelijk eenvoudige oplossingen hebben’, en voegde eraan toe dat ‘veel van deze gemakkelijkere Erdős-problemen nu waarschijnlijker zullen worden opgelost door puur op AI gebaseerde methoden dan door menselijke of hybride middelen.’ Een drijvende kracht achter deze vooruitgang is een verschuiving naar formalisering, een arbeidsintensief proces voor het verifiëren en uitbreiden van wiskundig redeneren. Hoewel er geen AI nodig is, hebben nieuwe geautomatiseerde tools dit proces vereenvoudigd. De open-source proefassistent Lean, ontwikkeld door Microsoft Research in 2013, wordt op grote schaal gebruikt voor het formaliseren van bewijzen, en AI-tools zoals Aristoteles van Harmonic streven ernaar een groot deel van dit werk te automatiseren. Tudor Achim, de oprichter van Harmonic, verklaarde dat de betrokkenheid van wiskundigen en professoren in de informatica bij AI-tools van groter belang was dan het aantal opgeloste Erdős-problemen. Achim zei: “Deze mensen hebben een reputatie te beschermen, dus als ze zeggen dat ze Aristoteles of ChatGPT gebruiken, is dat echt bewijs.”





