Herinner je je de ongemakkelijke nasynchronisatie in oude kungfu-films? Of de schokkende lipsynchronisatie in vroege animatiefilms? Die dagen vervagen snel en kunnen dankzij de opkomst van AI-aangedreven lipsynchronisatietechnologie voor altijd achter ons liggen. Sinds april 2023 is het aantal oplossingen en het volume van Zoekwoorden op basis van AI-lipsynchronisatie is dramatisch gegroeid, vanuit het niets uitgegroeid tot een van de kritische trends in de wereld generatieve AI.
Dit baanbrekende vakgebied zorgt voor een revolutie in de manier waarop we video-inhoud creëren en consumeren, met gevolgen voor alles, van filmmaken en animatie tot videoconferenties en gaming.
Om dieper in deze fascinerende technologie te duiken, sprak ik met Aleksandr Rezanov, een Computer Vision and Machine Learning Engineer die eerder leiding gaf aan de ontwikkeling van lipsynchronisatie bij Rask AI en momenteel werkt bij Higgsfield-AI in Londen. De expertise van Rezanov biedt een kijkje in de ingewikkelde werking, uitdagingen en transformatieve mogelijkheden van AI-lipsynchronisatie.
De magie deconstrueren: hoe AI-lipsynchronisatie werkt
“De meeste lip-sync-architecturen werken volgens een principe geïnspireerd door het artikel ‘Wav2Lip: nauwkeurig lipsynchronisatie van video’s in het wild‘,” vertelde Rezanov mij. Deze systemen maken gebruik van een complex samenspel van neurale netwerken om audio-invoer te analyseren en overeenkomstige lipbewegingen te genereren. “De invoergegevens omvatten een afbeelding waarop we de mond willen veranderen, een referentieafbeelding die laat zien hoe de persoon eruit ziet, en een audio-invoer”, aldus Rezanov.
Drie afzonderlijke encoders verwerken deze gegevens en creëren gecomprimeerde representaties die op elkaar inwerken om realistische mondvormen te genereren. “De taak van lipsynchronisatie is om een mond te ’tekenen’ waar deze gemaskeerd is (of een bestaande mond aan te passen), gezien het uiterlijk van de persoon en wat hij op dat moment zei,” zei Rezanov.
Dit proces omvat ingewikkelde aanpassingen, waaronder het gebruik van meerdere referentiebeelden om het uiterlijk van een persoon vast te leggen, het gebruik van verschillende gezichtsmodellen en verschillende audiocoderingsmethoden.
“In wezen onderzoeken onderzoeken naar lipsynchronisatie welke blokken in dit raamwerk kunnen worden vervangen terwijl de basisprincipes consistent blijven: drie encoders, interne interactie en een decoder”, aldus Rezanov.
Het ontwikkelen van AI-lipsynchronisatietechnologie is een uitdagende prestatie. Rezanovs team bij Rask AI stond voor tal van uitdagingen, vooral bij het bereiken van visuele kwaliteit en nauwkeurige audio-videosynchronisatie.
“Om dit op te lossen, hebben we verschillende strategieën toegepast”, zei Rezanov. “Dat omvatte het aanpassen van de neurale netwerkarchitectuur, het verfijnen en verbeteren van de trainingsprocedure en het verbeteren van de dataset.”
Rask was ook een pionier op het gebied van lipsynchronisatie-ondersteuning voor video’s met meerdere sprekers, een complexe taak die sprekerdiarisatie vereist (het automatisch identificeren en segmenteren van een audio-opname in verschillende spraaksegmenten) en actieve sprekerdetectie.
Beyond Entertainment: de groeiende toepassingen van AI-lipsynchronisatie
De implicaties van AI-lipsynchronisatie reiken veel verder dan entertainment. “Lip-sync-technologie heeft een breed scala aan toepassingen”, zei Rezanov. “Door gebruik te maken van lipsynchronisatie van hoge kwaliteit kunnen we de audiovisuele kloof wegnemen bij het bekijken van vertaalde inhoud, waardoor kijkers ondergedompeld kunnen blijven zonder te worden afgeleid door mismatches tussen spraak en video.”
Dit heeft aanzienlijke gevolgen voor de toegankelijkheid, waardoor inhoud aantrekkelijker wordt voor kijkers die afhankelijk zijn van ondertiteling of nasynchronisatie. Bovendien kan AI-lipsynchronisatie de productie van inhoud stroomlijnen, waardoor de behoefte aan meerdere opnames wordt verminderd en de kosten worden verlaagd.
“Deze technologie zou de kosten van de productie van content kunnen stroomlijnen en verlagen, waardoor gamestudio’s aanzienlijke middelen kunnen besparen en de animatiekwaliteit waarschijnlijk kan worden verbeterd”, aldus Rezanov.
De zoektocht naar perfectie: de toekomst van AI-lipsynchronisatie
Hoewel AI-lipsynchronisatie opmerkelijke vooruitgang heeft geboekt, gaat de zoektocht naar perfecte, niet te onderscheiden lipsynchronisatie door.
“De grootste uitdaging met lipsynchronisatietechnologie is dat mensen als soort uitzonderlijk vaardig zijn in het herkennen van gezichten”, zegt Rezanov. “De evolutie heeft ons gedurende duizenden jaren voor deze taak getraind, wat de moeilijkheden verklaart bij het genereren van iets dat met gezichten te maken heeft.”
Hij schetst drie fasen in de ontwikkeling van lipsynchronisatie: het bereiken van fundamentele mondsynchronisatie met audio, het creëren van natuurlijke en naadloze bewegingen en ten slotte het vastleggen van fijne details zoals poriën, haar en tanden.
“Momenteel ligt de grootste hindernis bij lipsynchronisatie in het verbeteren van dit detailniveau”, zei Rezanov. “Tanden en baarden blijven bijzonder uitdagend.” Als eigenaar van zowel tanden als een baard kan ik getuigen van de teleurstelling (en soms buiklachwekkende Dali-achtige resultaten) die ik heb ervaren bij het testen van enkele AI-lipsynchronisatieoplossingen
Ondanks deze uitdagingen blijft Rezanov optimistisch.
“Naar mijn mening komen we gestaag dichter bij het bereiken van werkelijk niet te onderscheiden lipsynchronisatie,” zei Rezanov. “Maar wie weet welke nieuwe details we zullen opmerken als we daar aankomen?”
Van lipsynchronisatie tot gezichtsmanipulatie: The Next Frontier
Rezanovs werk bij Higgsfield AI bouwt voort op zijn expertise op het gebied van lipsynchronisatie, waarbij hij zich richt op bredere technieken voor gezichtsmanipulatie.
“Videogeneratie is een immens vakgebied, en het is onmogelijk om slechts één aspect eruit te pikken”, zegt Rezanov. “Bij het bedrijf voer ik voornamelijk taken uit die verband houden met gezichtsmanipulatie, wat nauw aansluit bij mijn eerdere ervaring.”
Zijn huidige focus omvat het optimaliseren van face-swapping-technieken en het garanderen van karakterconsistentie in de gegenereerde inhoud. Dit werk verlegt de grenzen van AI-gestuurde videomanipulatie en opent nieuwe mogelijkheden voor creatieve expressie en technologische innovatie.
Naarmate de AI-lipsynchronisatietechnologie evolueert, kunnen we nog realistischere en meeslependere ervaringen verwachten in film, animatie, gaming en daarbuiten. De griezelige vallei wordt kleiner en een toekomst van hyperrealistische digitale mensen ligt binnen handbereik.