Bytedance, het moederbedrijf van Tiktok, heeft onlangs gelanceerd Omnihuman-1, een verfijnd AI-video-generatie framework dat video’s van hoge kwaliteit kan maken van een enkele afbeelding in combinatie met een audioclip. Dit model combineert video-, audio- en bijna perfecte lip-synchronisatiemogelijkheden.
Bytedance lanceert Omnihuman-1: een nieuw AI-video-generatiemodel
Omnihuman-1 is opmerkelijk voor het produceren van niet alleen fotorealistische video’s, maar ook antropomorfe cartoons, geanimeerde objecten en complexe poses. Daarnaast introduceerde Bytedance een ander AI-model genaamd Goku, dat vergelijkbare tekst-naar-video-kwaliteit bereikt met een compacte architectuur van 8 miljard parameters, specifiek gericht op de advertentiemarkt.
Deze ontwikkelingen positioneren door de topspelers in het AI -veld naast Chinese technische reuzen zoals Alibaba en Tencent. De vooruitgang ervan verstoort het landschap aanzienlijk voor door AI gegenereerde inhoud in vergelijking met andere bedrijven zoals Kling AI, gegeven door de uitgebreide videomediabibliotheek van Bytedance, die mogelijk de grootste is na Facebook.
De demo-video’s voor Omnihuman-1 tonen indrukwekkende resultaten van verschillende invoertypen, met een hoog niveau van detail en minimale glitches. In tegenstelling tot traditionele deepfake-technologieën die zich vaak uitsluitend richten op gezichtsanimaties, omvat Omnihuman-1 animaties voor full-body, die gebaren en uitdrukkingen nauwkeurig nabootsen. Bovendien past het AI -model zich goed aan verschillende beeldkwaliteiten aan, waardoor soepele beweging ontstaat, ongeacht de oorspronkelijke invoer.
Technische specificaties van omnihuman-1
Omnihuman-1 maakt gebruik van een diffusietransformer-model om beweging te genereren door bewegingspatronen te voorspellen bij frame per frame, wat resulteert in realistische overgangen en lichaamsdynamiek. Getraind op een uitgebreide dataset van 18.700 uur menselijke videobeelden, begrijpt het model een breed scala aan bewegingen en uitdrukkingen. Met name de trainingstrategie “omni-condities”, die meerdere invoersignalen zoals audio-, tekst- en pose-referenties integreert, verbetert de nauwkeurigheid van bewegingsvoorspellingen.
Probeerde Cogvideox, nog een open-source tekst-naar-video AI
Ondanks de veelbelovende vooruitgang in de AI -video -generatie, zijn de ethische implicaties aanzienlijk. De technologie introduceert risico’s zoals het potentieel voor misbruik van deepfake bij het genereren van misleidende media, identiteitsdiefstal en andere kwaadaardige toepassingen. Bijgevolg heeft Bytedance nog niet Omnihuman-1 vrijgegeven voor openbaar gebruik, waarschijnlijk vanwege deze zorgen. Als het publiekelijk beschikbaar wordt, zullen sterke waarborgen, waaronder digitale watermerk en het volgen van inhoudsauthenticiteit, waarschijnlijk nodig zijn om potentiële misbruiken te verminderen.
Uitgelichte afbeeldingskrediet: Claudio Schwarz/Unsplash