Openai heeft een nieuw evaluatiekader aangekondigd, GDPVal, om kunstmatige intelligentieprestaties te meten over economisch waardevolle taken. Het systeem test modellen op 1.320 real-world taakopdrachten om de kloof tussen academische benchmarks en praktische toepassingen te overbruggen. Het GDPVAL -raamwerk evalueert hoe AI -modellen 1.320 verschillende taken aanpakken die worden geassocieerd met 44 verschillende beroepen. Deze banen zijn voornamelijk kenniswerkposities in industrieën die elk meer dan 5% bijdragen aan het bruto binnenlands product (bbp) van de Verenigde Staten. Om deze lijst met relevante beroepen te construeren, gebruikte OpenAI gegevens van het US Bureau of Labor Statistics (BLS) van mei 2024 en de O*Net -database van het Department of Labour. De resulterende selectie van beroepen omvat beroepen die vaak worden geassocieerd met AI -integratie, zoals software -ingenieurs, advocaten en video -editors. Het raamwerk strekt zich ook uit tot beroepen die minder vaak worden besproken in de context van AI, inclusief rechercheurs, apothekers en maatschappelijk werkers, waardoor een bredere beoordeling van mogelijke economische impact wordt gegeven. Volgens het bedrijf zijn de taken binnen de evaluatie gecreëerd door professionals die gemiddeld 14 jaar ervaring hebben in hun respectieve gebieden. Deze maatregel was bedoeld om ervoor te zorgen dat de taken nauwkeurig weerspiegelen “echte werkproducten, zoals een juridische opdracht, een technische blauwdruk, een gesprek van klantenondersteuning of een verpleegkundige zorgplan.” Openai specificeerde dat de reikwijdte van GDPVal over talloze taken en beroepen het onderscheidt van andere evaluaties gericht op economische waarde, die zich kunnen concentreren op een enkel domein zoals software -engineering. Het ontwerp van de evaluatie verloopt eenvoudige tekstprompts. In plaats daarvan biedt het de AI -modellen met bestanden om te verwijzen en vereist het het maken van multimodale te leveren producten, zoals presentatiedia’s en opgemaakte documenten. Deze aanpak is bedoeld om te simuleren hoe een gebruiker zou omgaan met de technologie in een professionele werkomgeving. Openai verklaarde: “Dit realisme maakt GDPVal een meer realistische test van hoe modellen professionals kunnen ondersteunen.” In zijn onderzoek gebruikte OpenAI het GDPVAL-raamwerk om de output te beoordelen van verschillende van zijn eigen modellen, waaronder GPT-4O, GPT-4O-Mini, GPT-3 en de meer recente GPT-5. De evaluatie omvatte ook modellen van andere bedrijven: Claude Opus 4.1 van Anthropic, Google’s Gemini 2.5 Pro en Xai’s GROK 4. De kern van het beoordelingsproces omvatte ervaren professionals die blinde evaluaties van de uitgangen van de modellen uitvoerden. Deze menselijke klassers vergeleken onbewust het door AI gegenereerde werk tegen outputs die door menselijke experts worden geproduceerd, en boden een benchmark van directe kwaliteit zonder kennis van de oorsprong van het werk. Om dit door mensen geleide proces aan te vullen, ontwikkelde OpenAI een “Autograder” AI-systeem. Dit systeem is ontworpen om te voorspellen hoe een menselijke evaluator een bepaald levering zou scoren. Het bedrijf kondigde zijn intentie aan om deze autograder vrij te geven als een experimenteel onderzoekstool voor anderen om te gebruiken. Openai heeft echter een voorzichtigheid uitgegeven en verklaarde dat de autograder niet zo betrouwbaar is als menselijke klassers. Het bevestigde dat de tool niet bedoeld is om de menselijke evaluatie in de nabije toekomst te vervangen, hetgeen het genuanceerde oordeel weerspiegelt dat nodig is voor het beoordelen van professioneel werk van hoge kwaliteit. De eerste bevindingen van de GDPVal -tests geven aan dat de huidige geavanceerde AI de kwaliteitsnormen van menselijke professionals nadert. “We hebben geconstateerd dat de beste grensmodellen van vandaag de kwaliteit van het werk van experts uit de industrie al benaderen”, schreef Openai. Onder de geteste modellen werd Claude Opus 4.1 van Anthropic geïdentificeerd als de beste algehele uitvoerder. De specifieke sterke punten ervan werden waargenomen bij taken met betrekking tot esthetiek, die elementen zoals professionele documentopmaak en de duidelijke, effectieve lay -out van presentatiedia’s omvatten. Deze kwaliteiten zijn vaak van cruciaal belang voor materialen voor klantgerichte en effectieve communicatie in een zakelijke context. Terwijl Claude Opus 4.1 uitblonk in presentatie, demonstreerde het GPT-5-model van Openai superieure prestaties in nauwkeurigheid. Dit was vooral duidelijk in taken die het vinden en correct toepassen van domeinspecifieke kennis correct toepassen. Het onderzoek benadrukte ook het snelle tempo van modelverbetering. De resultaten toonden aan dat prestaties op GDPVal-taken “meer dan verdubbeld van GPT-4O (uitgebracht lente 2024) naar GPT-5 (uitgebracht zomer 2025).” Deze substantiële toename van het vermogen gedurende een relatief korte periode duidt op een significante versnelling bij de ontwikkeling van onderliggende AI -technologieën. De evaluatie omvatte ook een analyse van efficiëntie. “We hebben geconstateerd dat Frontier -modellen GDPVAL -taken ongeveer 100 × sneller en 100 x goedkoper kunnen voltooien dan experts uit de industrie,” meldde Openai. Het bedrijf kwalificeerde deze bevinding onmiddellijk met een kritisch voorbehoud. “Deze cijfers weerspiegelen echter pure modelinferentietijd en API -factureringspercentages en legt daarom niet het menselijk toezicht, iteratie en integratiestappen vast die nodig zijn in echte werkplekinstellingen om onze modellen te gebruiken.” Deze context verduidelijkt dat de berekening de aanzienlijke tijd en kosten in verband met het beheren, verfijnen en implementeren van AI-gegenereerd werk in een praktische zakelijke workflow uitsluit. Openai erkende belangrijke beperkingen in de huidige versie van het GDPVAL -raamwerk en beschreef het als “een vroege stap die niet de volledige nuance van veel economische taken weerspiegelt.” Een belangrijke beperking is het gebruik van eenmalige evaluaties. Dit betekent dat het framework het vermogen van een model om iteratief werk te behandelen niet kan meten, zoals het voltooien van meerdere concepten van een project, of het vermogen ervan om context te absorberen voor een voortdurende taak in de loop van de tijd. De huidige test kan bijvoorbeeld niet beoordelen of een model met succes een juridische opdracht kan bewerken op basis van feedback van klanten of een gegevensanalyse opnieuw kan doen om rekening te houden met een nieuw ontdekte anomalie. Een verdere beperking van het bedrijf is dat professioneel werk niet altijd een eenvoudig proces is met georganiseerde bestanden en een duidelijke richtlijn. Het huidige raamwerk kan niet de meer complexe en minder gestructureerde aspecten van veel banen vastleggen. Dit omvat het “menselijk – en diep contextuele – werk van het verkennen van een probleem door een gesprek en omgaan met dubbelzinnigheid of veranderende omstandigheden.” Deze elementen staan vaak centraal in professionele rollen, maar zijn moeilijk te repliceren in een gestandaardiseerde testomgeving. “De meeste banen zijn meer dan alleen een verzameling taken die kunnen worden opgeschreven,” voegde Openai toe. Het bedrijf verklaarde zijn voornemen om deze beperkingen in toekomstige herhalingen van het raamwerk aan te pakken. Plannen omvatten het uitbreiden van zijn reikwijdte om meer industrieën te spannen en harder te autoriteiten op te nemen. In het bijzonder zal OpenAI proberen evaluaties te ontwikkelen voor taken met interactieve workflows, waarbij een model een heen en weer proces moet doen, of die die een uitgebreide eerdere context moeten begrijpen, wat een uitdaging blijft voor veel AI-systemen. Als onderdeel van deze uitbreiding zal OpenAI een subset van de GDPVal -taken vrijgeven voor onderzoekers om in hun eigen werk te gebruiken. Uit deze resultaten is de verklaarde conclusie van Openai dat AI onvermijdelijk de arbeidsmarkt zal blijven verstoren. Het bedrijf stelt dat AI routine “drukwerk” kan aannemen, waardoor menselijke werknemers zich bevrijden om zich te concentreren op meer complexe en strategische taken. Dit perspectief omlijst AI als een hulpmiddel voor het vergroten van de menselijke productiviteit in plaats van puur voor vervanging. “Vooral op de subset van taken waar modellen bijzonder sterk zijn, verwachten we dat het geven van een taak aan een model voordat het met een mens wordt geprobeerd tijd en geld zou besparen,” schreef Openai. Gelijktijdig met deze bevindingen herhaalde het bedrijf zijn aangegeven toewijding aan zijn bredere missie. Dit omvat plannen om de toegang tot AI -tools te democratiseren, een poging om “werknemers te ondersteunen door verandering en systemen die een brede bijdrage belonen”. “Ons doel is om iedereen op de ‘lift’ van AI te houden,” concludeerde het bedrijf.