OpenAI heeft zojuist zijn meest geavanceerde beeldgenerator geïntegreerd in GPT-4O, waardoor beeldgeneratie een “primaire mogelijkheden” van zijn taalmodellen is. Dit maakt het mogelijk om precieze, fotorealistische afbeeldingen te maken die nuttig zijn voor verschillende taken, van diagrammen tot visuele communicatie.
Mensen hebben altijd vertrouwd op visuele beelden voor meer dan alleen decoratie – denkschilderijen van de grot die evolueren naar moderne infographics. Hoewel de huidige generatieve modellen blinken in het creëren van verbluffende visuals, schieten ze vaak tekort in het produceren van praktische beelden. Logo’s en diagrammen vereisen bijvoorbeeld een mix van precieze betekenis en gedeelde context, iets dat GPT-4O wil leveren.
GPT-4O kan tekst nauwkeurig weergeven, de aanwijzingen op de voet volgen en de ingebouwde kennisbasis benutten-inclusief transformerende geüpload afbeeldingen. Deze functies helpen om beeldcreatie een praktischer hulpmiddel te maken, waardoor de visuele communicatie met precisie wordt verbeterd.
Training omvatte het blootstellen van de modellen aan een mix van online afbeeldingen en tekst, en leerde ze niet alleen hoe afbeeldingen zich verhouden tot taal, maar hoe ze met elkaar verbinden. Intensieve post-training verbetert verder de visuele vloeiendheid van het model, wat resulteert in consistente en contextbewuste beeldgeneratie.
GPT-4O-mogelijkheden voor het genereren van afbeeldingen zijn onder meer:
- Tekst rendering: Integreert precieze symbolen met afbeeldingen.
- Generatie met meerdere turn: Verfijnt afbeeldingen door een continu gesprek.
- In-Context Learning: Analyseert en leert van gebruikersgewerkte afbeeldingen.
- Wereldkennis: Kindt kennis tussen tekst en afbeeldingen.
- Fotorealisme en stijl: Creëert of transformeert afbeeldingen in gevarieerde stijlen.
Ondanks deze vorderingen is het model niet onberispelijk. OpenAI erkent beperkingen zoals bijsnijdende problemen, hallucinaties en uitdagingen bij precieze grafische en meertalige tekstweergave, die ze allemaal van plan zijn om na de lancering aan te pakken.
Veiligheid blijft een prioriteit. OpenAI is bedoeld om creatieve vrijheid in evenwicht te brengen met robuuste veiligheidsnormen, maatregelen te implementeren zoals C2PA -herkomst en interne zoekmechanismen om misbruik te voorkomen.
De nieuwe functie voor het genereren van afbeeldingen in GPT-4O rolt uit naar Plus-, Pro-, Team- en Free-gebruikers van Chatgpt. Het zal binnenkort ook beschikbaar zijn voor ondernemingen en EDU -gebruikers. Ontwikkelaars kunnen de komende weken uitkijken naar API -toegang. Gebruikers kunnen afbeeldingen eenvoudig maken door hun behoeften in de chat te beschrijven en details op te geven, zoals beeldverhouding of kleuren.
Vanwege de gedetailleerde aard van de beelden, kunnen ze tot een minuut duren om te weergeven.