YouTube ontwikkelt een kunstmatige intelligentie-functie om lipsynchronisatie te genereren voor zijn automatisch nagesynchroniseerde video’s. De technologie heeft tot doel het realisme te vergroten door de mondbewegingen van een spreker aan te passen aan vertaalde audiotracks, bedoeld om de betrokkenheid van de kijker te vergroten. Volgens Digitale trendsde technische basis van het systeem, zoals beschreven door Buddhika Kottahachchi, de productleider van YouTube voor auto-dubben, is gebaseerd op een op maat gemaakte AI. Kottahachchi legde uit dat de technologie ingewikkelde veranderingen op pixelniveau uitvoert in de mond van een spreker op het scherm om synchronisatie met nagesynchroniseerde audio te creëren. Het AI-model omvat een driedimensionale perceptie van gezichtsstructuren, waardoor het de geometrie van de lippen en tanden kan analyseren. Het is ook ontworpen voor het interpreteren en repliceren van gezichtsuitdrukkingen die bij spraak horen. Dankzij deze 3D-modelleringsaanpak kan het systeem de fysieke bewegingen die nodig zijn om in een andere taal te spreken nauwkeuriger simuleren. In de beginfase zal de lipsynchronisatiefunctie specifieke technische en taalkundige beperkingen hebben. De AI-verwerking is momenteel beperkt tot video’s met een resolutie van 1080p en kan niet worden toegepast op 4K-inhoud. Taalondersteuning bij de lancering zal beperkt zijn tot Engels, Frans, Duits, Portugees en Spaans. Na deze introductieperiode zal YouTube is van plan de ondersteuning uit te breiden naar meer dan twintig talen. Deze uitbreiding is ontworpen om de lipsynchronisatiefunctie in lijn te brengen met het volledige scala aan talen dat momenteel wordt aangeboden door de automatische nasynchronisatieservice van YouTube. YouTube heeft nog geen definitieve releasedatum voor de functie aangekondigd. Van het bedrijf wordt verwacht dat het de technologie eerst introduceert via een pilotprogramma met een kleine groep makers, een strategie die de uitrol van de automatische nasynchronisatiefunctie weerspiegelt. Die auto-dubbing-service werd vorige maand uitgebreid naar een breder publiek, wat aangeeft dat de toevoeging van lipsynchronisatie mogelijk een langere testperiode zal ondergaan. Creators krijgen bedieningselementen om het gebruik ervan te beheren, inclusief de gerapporteerde optie om de functie uit te schakelen voor hun hele kanaal of voor individuele video’s, waardoor ze het laatste woord krijgen over de presentatie van hun inhoud. Er kunnen extra kosten aan de functie verbonden zijn, hoewel er nog geen specifieke prijs is vastgesteld. Het is onduidelijk of de maker of de consument de vergoeding zal dragen, maar uit rapporten blijkt dat dit waarschijnlijk de consument zal zijn. Om mogelijk misbruik aan te pakken, is YouTube van plan veiligheidsmaatregelen te implementeren. Deze omvatten een beschrijvende openbaarmaking om kijkers te informeren over de AI-wijziging en een onzichtbare, aanhoudende vingerafdruk ingebed in de video. Er wordt beschreven dat dit digitale watermerk qua functie vergelijkbaar is met SynthID, een hulpmiddel dat wordt gebruikt om door AI gegenereerde inhoud te identificeren en een mechanisme biedt voor tracking en authenticatie. YouTube is niet het enige platform dat deze technologie ontwikkelt. Meta heeft een vergelijkbaar initiatief voor zijn Instagram-platform, waar het vorig jaar een pilotprogramma lanceerde om Reels te dubben en te lipsynchroniseren. Hoewel details over het succes van het programma beperkt zijn, is het onlangs uitgebreid met ondersteuning voor vier talen: Engels, Hindi, Portugees en Spaans. https://www.youtube.com/watch?v=8W3noE2Uxag





