GPT-4.1 heeft officieel geland In de OpenAI API, een trio van modellen introduceren-GPT-4.1, GPT-4.1 Mini en GPT-4.1 Nano-die in bijna elke dimensie beter presteren dan hun voorgangers. Deze modellen zijn ontworpen voor ontwikkelaars die betere coderingsvaardigheden nodig hebben, sterkere instructies volgend en massaal begrip voor lang-context, terwijl het latentie en de kosten wordt verlaagd. Het vlaggenschipmodel ondersteunt nu maximaal 1 miljoen contexttokens en beschikt over een nieuwe kennisoversluiting van juni 2024.
Wat is er nieuw met GPT-4.1?
De GPT-4.1-familie is een directe upgrade over GPT-4O en GPT-4.5, die verbeterde prestaties biedt voor benchmarks, terwijl het optimaliseert voor het gebruik van echte ontwikkelaars. GPT-4.1 scoort 54,6% op SWe-bank geverifieerdwaardoor het een van de topmodellen is voor het coderen van taken. Op schaal Multichallenge -benchmarkhet ziet een absolute verbetering van 10,5% ten opzichte van GPT-4O in instructie volgende. Voor lange contexttaken stelt het een nieuwe state-of-the-art score van 72% op de Video-mme benchmark.
De modellen zijn ook geoptimaliseerd over de latentiecurve. GPT-4.1 Mini levert bijna dezelfde prestaties als GPT-4O terwijl het latentie in de helft wordt verlaagd en de kosten met 83%verlaagt. GPT-4.1 Nano is het snelste en meest betaalbare model van Openai tot nu toe, gebouwd voor classificatie en autocomplete taken, terwijl het nog steeds 1 miljoen tokencontextvensters ondersteunt.
Codeermogelijkheden maken een sprong
Van het genereren van schonere frontend-interfaces tot diff-formaten betrouwbaarder, GPT-4.1 bewijst zichzelf als een zeer capabele coderingsassistent. Op de SWE-Bench-geverifieerde benchmark voltooit het meer dan de helft van de taken correct-een stijging van 33,2% met GPT-4O. Het presteert ook beter dan GPT-4O en zelfs GPT-4.5 op de Polyglot Diff Benchmark van Aider, en biedt ontwikkelaars precieze bewerkingen in meerdere programmeertalen zonder hele bestanden te herschrijven. Voor herschrijvingen op bestandsniveau zijn de limieten van de uitvoer token uitgebreid tot 32.768 tokens.
In interne vergelijkingen hadden GPT-4.1-websites de voorkeur van 80% van de tijd boven de uitgangen van GPT-4O. Vreemde bewerkingen in code daalden van 9% tot slechts 2%, wat een betere contextbegrip en gereedschapsgebruik weerspiegelt.
Vroege adopters benadrukken echte overwinningen
Windsurf rapporteerde een verbetering van 60% in interne benchmarks, terwijl Qodo vond dat GPT-4.1 betere suggesties gaf in 55% van de GitHub-pull-aanvragen. Deze verbeteringen vertalen zich rechtstreeks in betere nauwkeurigheid van de codevoorziening, minder onnodige suggesties en snellere iteratiecycli voor teams.
Scherper instructie volgen in scenario’s
GPT-4.1 presteert aanzienlijk beter in de betrouwbaarheid van de instructie. Het scoort 87,4% op Ifeval en 38% op de multichallenge -benchmark, met winsten bij het omgaan met complexe formaten, het afwijzen van verboden instructies en sorteren of rangorde output. De eigen evaluatie van Openai toonde aan dat GPT-4.1 nauwkeuriger is over harde prompts en beter in multi-turn instructie tracking, een essentiële functie voor het bouwen van betrouwbare conversatiesystemen.
Blue J en Hex testten beide GPT-4.1 tegen domeinspecifieke taken. Blue J zag een nauwkeurigheidsverbetering van 53% in complexe belastingscenario’s, terwijl HEX bijna het dubbele van de prestaties in SQL-taken meldde, waardoor de overhead overhead en het verbeteren van de productie-lezelijkheid werd verminderd.
1 miljoen token contextvenster stelt een nieuwe balk in
Alle drie de modellen in de GPT-4.1-familie ondersteunen nu tot 1 miljoen contexttokens-meer dan 8 keer de React Codebase. Dit maakt krachtige nieuwe use cases mogelijk in juridische documentanalyse, financieel onderzoek en softwareworkflows met lange vorm. In Openai’s “Needle in a Haystack” -test haalde GPT-4.1 betrouwbaar relevante inhoud op, ongeacht waar het in de invoer verscheen.
De OpenAI-MRCR-benchmark bevestigde dit verder door het vermogen van het model te testen om onderscheid te maken tussen bijna identieke aanwijzingen verspreid over een enorm contextvenster. Op de benchmark van GraphWalks, waarbij de redenering over knooppunten in een synthetische grafiek inhoudt, scoorde GPT-4.1 62%, aanzienlijk voor de 42%van GPT-4O.
Thomson Reuters rapporteerde een boost van 17% in de nauwkeurigheid van de juridische documentrecensie met behulp van GPT-4.1 in zijn Cocounsel-systeem, terwijl Carlyle een verbetering van 50% zag in het extraheren van korrelige financiële gegevens uit complexe bestanden.
GPT-4.5 Out-humans mensen in een nieuwe test
Snellere conclusie en beter beeld begrip
OpenAI heeft de tijd verkort om het eerste token te gebruiken met behulp van verbeteringen in zijn inferentiestapel. GPT-4.1 Nano reageert in minder dan vijf seconden op 128K-Token-prompts. Voor multimodale taken vertoont GPT-4.1 mini een sterker beeldbegrip dan GPT-4O over benchmarks zoals MMMU en Mathvista.
Op visuele benchmarks zoals Charxiv-Rasering en Video-MME leidt GPT-4.1 consequent, scoorde 72% op de laatste zonder ondertitels. Dit maakt het een topkeuze voor het begrijpen van video -begrip en interpretatie van wetenschappelijke grafiek.
Prijsverlagingen en overgangsplannen
Alle drie GPT-4.1-modellen zijn nu beschikbaar in de API, met een aanzienlijke prijsdaling. GPT-4.1 is 26% goedkoper voor mediane vragen in vergelijking met GPT-4O. Snelle cache-kortingen zijn toegenomen tot 75%en er zijn geen extra kosten voor ingangen met lange context. Het GPT-4.5-voorbeeld zal op 14 juli 2025 worden verouderd, ten gunste van de efficiëntere GPT-4.1-familie.
Prijzen per 1M-tokens voor GPT-4.1 zijn ingesteld op $ 2 voor input, $ 0,50 voor input in de cache en $ 8 voor output. GPT-4.1 Nano daalt die op respectievelijk $ 0,10, $ 0,025 en $ 0,40-waardoor het tot nu toe de meest betaalbare optie wordt.