AI-avatars, of ‘pratende hoofden’, hebben een nieuwe stap gezet in de manier waarop we digitale betrokkenheid benaderen en begrijpen. Nog niet zo lang geleden werd een enkele foto- en audioclip omgezet in een realistische, sprekende gelijkenis leek onmogelijk; het beste wat we konden bereiken was een ‘uncanny valley’-resultaat, zeker ongeschikt voor enig extern gebruik.
Nu is de situatie heel anders. Dit proces van het maken van AI-avatars staat centraal bij tools als Synthesia en begint met AI die een ‘digitale identiteit’ creëert op basis van een afbeelding en deze vervolgens animeert om gezichtsbewegingen te synchroniseren met audio – zodat de avatar ‘spreekt’ voor de gebruiker tijdens een presentatie, filmrol, of evenement. Deze vooruitgang is te danken aan geavanceerde methoden zoals GAN’sbekend om snelle, hoogwaardige visuele output, en diffusiemodellen, gewaardeerd om hun rijke details, hoewel langzamer. Synthesia, D-ID en Hume AI behoren tot de bedrijven die deze tools bevorderen en het voortouw nemen bij het zo goed mogelijk aanpassen van deze technologie aan de huidige eisen.
Toch ligt het echte realisme nog steeds buiten bereik. Neurale netwerken verwerken visuele details anders dan mensen, waarbij ze vaak subtiele signalen over het hoofd zien, zoals de precieze uitlijning van tanden en gezichtshaar, die bepalen hoe mensen van nature gezichten waarnemen. Daarover later meer.
Dit artikel gaat over de innerlijke werking van de technologie en de uitdagingen waarmee ontwikkelaars worden geconfronteerd als ze proberen AI-avatars op onze bekende gezichten te laten lijken. Hoe realistisch kunnen ze worden?
Hoe het proces voor het genereren van AI-avatars werkt
Het maken van een AI-avatar begint met het uploaden van een foto of video door een gebruiker. Deze invoer wordt verwerkt via een “Identity Extractor” – een neuraal netwerk dat is getraind om het fysieke uiterlijk van een persoon te identificeren en te coderen. Dit model extraheert de belangrijkste kenmerken van het gezicht en zet deze om in een ‘digitale identiteit’, die kan worden gebruikt om de avatar realistisch te animeren. Vanuit deze weergave kunnen ontwikkelaars bewegingen besturen via een ‘stuurprogramma’-signaal, meestal audio of extra video, dat dicteert hoe de avatar moet bewegen en spreken.
Het signaal van de bestuurder is van vitaal belang in het animatieproces. Het bepaalt zowel de lipsynchronisatie met audio als de bredere gezichtsuitdrukkingen. In een pratende avatar beïnvloeden audiosignalen bijvoorbeeld de vorm en beweging van de mond, zodat deze overeenkomen met de spraak. Soms worden belangrijke gezichtspunten (bijvoorbeeld oog- en mondhoeken) gebruikt om de beweging nauwkeurig te geleiden, terwijl in andere gevallen de houding van de hele avatar wordt aangepast om overeen te komen met het signaal van de bestuurder. Om ervoor te zorgen dat de uitdrukking natuurlijk is, kan het neurale netwerk technieken gebruiken zoals ‘warping’, waarmee de kenmerken van de avatar soepel worden aangepast op basis van de bovenstaande invoersignalen.
Als laatste stap vertaalt een decoderingsproces deze gewijzigde digitale identiteit terug naar een visuele vorm door individuele frames te genereren en deze samen te voegen tot een naadloze video. Neurale netwerken werken doorgaans niet omkeerbaar, dus het decoderen vereist afzonderlijke training om de geanimeerde digitale representatie nauwkeurig om te zetten in levensechte, continue beelden. Het resultaat is een avatar die menselijke uitdrukkingen en bewegingen nauw weerspiegelt, maar nog steeds beperkt blijft door de beperkingen van het huidige vermogen van AI om fijne gezichtsdetails waar te nemen.
GAN’s, diffusiemodellen en op 3D gebaseerde methoden: de drie pijlers van het genereren van avatars
De kerntechnologieën die deze transformatie mogelijk maken, ontwikkelen zich voortdurend om menselijke uitdrukkingen nauwkeuriger vast te leggen, waarbij stap voor stap wordt voortgebouwd op het proces van het genereren van avatars. Drie belangrijke benaderingen zorgen momenteel voor vooruitgang, en elk daarvan heeft specifieke voordelen en beperkingen:
De eerste, GAN (Generative Adversarial Networks), maakt gebruik van twee neurale netwerken in tandem – een generator en een discriminator – om zeer realistische beelden te creëren. Deze aanpak maakt een snelle generatie van afbeeldingen van hoge kwaliteit mogelijk, waardoor het geschikt is voor realtime toepassingen met een duidelijke behoefte aan soepele en responsieve avatars. Hoewel GAN’s uitblinken in snelheid en visuele kwaliteit, kunnen ze moeilijk nauwkeurig te controleren zijn. Dit kan de effectiviteit ervan beperken in gevallen waarin gedetailleerd maatwerk vereist is.
Verspreidingsmodellen zijn een ander krachtig hulpmiddel. Via herhaalde stappen zetten ze ruis geleidelijk om in een beeld van hoge kwaliteit. Bekend om het genereren van gedetailleerde en zeer controleerbare beelden, zijn diffusiemodellen langzamer en vereisen ze aanzienlijke rekenkracht. Ze zijn dus ideaal voor offline weergave en realtime gebruik – niet zozeer. De kracht van dit model ligt in het produceren van genuanceerde, fotorealistische details, zij het in een langzamer tempo.
Eindelijk, Op 3D gebaseerde methoden zoals Neural Radiance Fields (NeRFs) en Gaussian Splatting bouwen een visuele representatie op door ruimtelijke en kleurinformatie in een 3D-scène in kaart te brengen. Deze methoden verschillen enigszins, waarbij Splatting sneller is en NeRF’s in een langzamer tempo werken. Op 3D gebaseerde benaderingen zijn het meest geschikt voor gaming of interactieve omgevingen. NeRF’s en Gaussiaanse splatting kunnen echter tekortschieten in visueel realisme, waardoor ze momenteel een uiterlijk opleveren dat kunstmatig kan overkomen in scenario’s die menselijke gelijkenis vereisen.
Elke technologie biedt een balans tussen snelheid, kwaliteit en controle die het meest geschikt is voor verschillende toepassingen. GAN’s worden veel gebruikt voor real-time toepassingen vanwege hun combinatie van snelheid en visuele kwaliteit, terwijl diffusiemodellen de voorkeur hebben in “offline” contexten, waar weergave niet in realtime plaatsvindt, waardoor intensievere berekeningen mogelijk zijn om fijnere details te bereiken. 3D-methoden blijven zich ontwikkelen voor behoeften op het gebied van hoge prestaties, maar missen momenteel de realistische visuele nauwkeurigheid die vereist is voor mensachtige representaties.
Deze technologieën vatten de huidige ontwikkelingen en uitdagingen in het veld goed samen. Continu onderzoek is gericht op het bundelen van hun krachten om levensechtere resultaten te bereiken, maar voorlopig hebben we hier mee te maken.
De AI Avatar ‘Tanden en baarden’-uitdaging
Het bouwen van realistische AI-avatars begint met het verzamelen van trainingsgegevens van hoge kwaliteit – een complexe taak op zichzelf – maar een minder voor de hand liggend en even uitdagend aspect is het vastleggen van kleine, mensbepalende details zoals tanden En baarden. Deze elementen zijn notoir moeilijk nauwkeurig te modelleren, deels vanwege de beperkte beschikbare trainingsgegevens. Gedetailleerde afbeeldingen van tanden, vooral ondertanden, zijn bijvoorbeeld schaars in typische datasets: ze zijn vaak verborgen in natuurlijke spraak. Modellen hebben moeite met het reconstrueren van realistische tandstructuren zonder voldoende voorbeelden, wat vaak leidt tot vervormde of onnatuurlijke verschijningsvormen, zoals ‘afbrokkelen’ of vreemde plaatsing.
Baarden voegen een vergelijkbaar niveau van complexiteit toe. Dicht bij de mond geplaatst, verschuiven baarden met gezichtsbewegingen en veranderen ze onder verschillende verlichting, waardoor elk gebrek onmiddellijk merkbaar wordt. Als een baard niet met precisie wordt gemodelleerd, kan deze er statisch, wazig of onnatuurlijk gestructureerd uitzien, wat afbreuk doet aan het algehele realisme van de avatar.
De andere factor die deze details compliceert, is de perceptie van het neurale netwerk. Mensen concentreren zich intuïtief op gezichtsnuances zoals tanden en gezichtshaar om individuen te identificeren, terwijl neurale modellen de aandacht over het hele gezicht verspreiden, waarbij ze vaak deze kleinere maar belangrijke elementen omzeilen. Voor het model zijn tanden en baarden minder belangrijk; voor mensen zijn het essentiële identiteitskenmerken. Dit kan alleen worden overwonnen door middel van uitgebreide verfijning en hertraining, die vaak net zoveel inspanning vergt als het perfectioneren van de algehele gezichtsstructuur.
We zien nu A kernbeperking: hoewel deze modellen richting realisme evolueren, slagen ze er nog net niet in de subtiliteit van de menselijke perceptie vast te leggen.
Recente ontwikkelingen in de AI-avatartechnologie hebben natuurlijk ogende uitdrukkingen dichter bij de realiteit gebracht dan ooit tevoren. GAN’s, diffusiemodellen en opkomende 3D-benaderingen hebben het genereren van ‘pratende hoofden’ volledig verfijnd, en elke aanpak biedt een uniek perspectief en gereedschapskist om een ooit futuristisch idee werkelijkheid te maken.
GAN’s bieden de snelheid die nodig is voor real-time toepassingen; diffusiemodellen dragen bij aan genuanceerde controle, zij het langzamer. Technieken zoals Gaussiaanse splatting in 3D brengen efficiëntie, soms ten koste van de visuele betrouwbaarheid.
Ondanks deze verbeteringen heeft technologie nog een lange weg te gaan als het gaat om realisme. Hoe verfijnd uw model ook is, af en toe zult u hoogstwaarschijnlijk een enigszins griezelig gebit of een afwijkende plaatsing van gezichtshaar tegenkomen. Maar naarmate de beschikbare gegevens van hoge kwaliteit in de loop van de tijd toenemen, zullen neurale netwerken het vermogen ontwikkelen om consistentie te tonen in de manier waarop ze aangeboren menselijke micro-eigenschappen vertegenwoordigen. Wat integraal is voor onze perceptie, is slechts een parameter voor AI-modellen.
Deze kloof benadrukt een voortdurende strijd: prestaties op technologisch gebied helpen ons vooruit, maar het doel om echt levensechte avatars te creëren blijft ongrijpbaar, net als de paradox van Achilles en de schildpad: hoe dichtbij we ook komen, perfectie blijft buiten bereik.