CogVideoX uitgeprobeerd, een andere open-source tekst-naar-video AI

Tsinghua-universiteit En Zhipu-AI hebben in samenwerking CogVideoX geïntroduceerd, een open-source tekst-naar-videomodel dat klaar is om AI-zwaargewichten als Landingsbaan, Luma-AIEn Pika-laboratoriaDeze innovatie, die in een recente publicatie van arXiv wordt beschreven, biedt ontwikkelaars over de hele wereld geavanceerde mogelijkheden voor videogeneratie.

CogVideoX: Nieuwe open-source tekst-naar-video AI-tool

“We introduceren CogVideoX, grootschalige diffusietransformatormodellen die zijn ontworpen voor het genereren van video’s op basis van tekstprompts. Om videodata efficiënt te modelleren, stellen we voor om een 3D Variational Autoencoder (VAE) te gebruiken om video’s te comprimeren langs zowel ruimtelijke als temporele dimensies. Om de tekst-video-uitlijning te verbeteren, stellen we een experttransformator voor met de expert adaptieve LayerNorm om de diepe fusie tussen de twee modaliteiten te vergemakkelijken. Door een progressieve trainingstechniek te gebruiken, is CogVideoX bedreven in het produceren van coherente, langdurige video’s die worden gekenmerkt door significante bewegingen,” de papier leest.

De Tsinghua Universiteit is sterk betrokken bij AI-onderzoek, met een aantal opmerkelijke projecten op zijn naam.
Onlangs werkten ze samen aan OpenVoice, een open-source platform voor het klonen van stemmen dat samen met MIT is ontwikkeld en MijnShellen nu hebben ze CogVideoX-5B geïntroduceerd, een tekst-naar-videomodel. Ze zijn ook een partnerschap aangegaan met Shengshu Technology om Vidu-AIeen tool die is ontworpen om het maken van video’s met behulp van AI te vereenvoudigen.

CogVideoX kan op basis van eenvoudige tekstberichten hoogwaardige, samenhangende video’s van maximaal zes seconden maken.

Het opvallende model, CogVideoX-5B, heeft 5 miljard parameters en produceert video’s met een resolutie van 720×480 en 8 frames per seconde. Hoewel deze specificaties misschien niet kunnen wedijveren met de nieuwste propriëtaire systemen, ligt de echte doorbraak in de open-sourcebenadering van CogVideoX.

Open-sourcemodellen revolutioneren het veld door rhun code- en modelgewichten vrijgeven voor het publiek heeft het Tsinghua-team effectief een technologie gedemocratiseerd die ooit het domein was van goed gefinancierde techgiganten. Deze stap zal naar verwachting de vooruitgang in AI-gegenereerde video versnellen door gebruik te maken van de collectieve expertise van de wereldwijde ontwikkelaarscommunity.

De onderzoekers bereikten de indrukwekkende resultaten van CogVideoX door middel van verschillende belangrijke innovaties, waaronder een 3D Variationele Autoencoder voor efficiënte videocompressie en een “experttransformator” die is ontworpen om de uitlijning van tekst en video te verbeteren.

“Om de uitlijning tussen video’s en teksten te verbeteren, stellen we een expert Transformer voor met expert adaptieve LayerNorm om de fusie tussen de twee modaliteiten te vergemakkelijken”, legt het artikel uit. Deze doorbraak maakt een nauwkeurigere interpretatie van tekstprompts en een nauwkeurigere videogeneratie mogelijk.

Hoe probeer ik CogVideoX?

Begin door naar het HuggingFace-platform te gaan waar de CogVideoX-5B open-source videogeneratietool is beschikbaar voor testen.

CogVideoX is een andere open-source tekst-naar-video AI — Stap 1

Maak een beschrijvende opdracht voor de video die u wilt genereren. Wij gebruikten bijvoorbeeld:

Een vredig tuintafereel waarin een enkele vlinder sierlijk door de lucht fladdert, zijn levendige vleugels vangen het licht terwijl hij zachtjes landt op de uitgestoken hand van een kind. De ogen van het kind worden wijd van ontzag, en vangen de magie van het moment terwijl de vlinder voorzichtig op hun kleine vingers rust. Om hen heen wiegen bloeiende bloemen zachtjes in de wind, terwijl een verre stroom zachtjes kabbelt, wat een gevoel van kalmte toevoegt aan de serene atmosfeer. De hand van het kind blijft vastberaden en biedt een warm welkom aan het tere wezen, wat een verbinding belichaamt tussen onschuld en de wonderen van de natuur.

Zodra uw prompt klaar is, Klik op de knop om de video te genereren. U moet even wachten terwijl de tool uw verzoek verwerkt en de video maakt op basis van uw beschrijving.

Nadat de video is gegenereerd, kunt u deze rechtstreeks van het platform downloaden. Hiermee kunt u het resultaat van uw opdracht bekijken en zien hoe nauwkeurig de tool uw beschrijving heeft geïnterpreteerd.

Bekijk de video. Hoewel het resultaat misschien niet overweldigend is, is het belangrijk om op te merken dat dit soort tools snel verbeteren. Net zoals we zagen met de evolutie van ChatGPT, is een significante doorbraak in AI-gegenereerde video waarschijnlijk in aantocht.

Heb het uitgeprobeerd – hoewel het nog niet overweldigend is, duiken deze tools overal op. Verwacht binnenkort een doorbraak, net zoals we zagen met ChatGPT. foto.twitter.com/53xYz6lBLf

— Kerem Gülen (@kgulenn) 28 augustus 2024

We gaan steeds meer deepfakes zien

Toch brengt de brede beschikbaarheid van zulke krachtige technologie ook gevaren met zich mee. Het potentieel voor misbruik, met name bij het maken van deepfakes of misleidende content, is een serieus probleem waar de AI-community mee te maken krijgt. De onderzoekers zelf erkennen deze ethische zorgen en dringen erop aan dat de technologie verantwoord wordt gebruikt.

Nu AI-gegenereerde video steeds toegankelijker en geavanceerder wordt, begeven we ons op onbekend terrein in de creatie van digitale content. De lancering van CogVideoX zou een heel belangrijk moment kunnen zijn, waarbij de macht van de grote spelers in het veld mogelijk wordt herverdeeld naar een opener, gedecentraliseerd model van AI-ontwikkeling.

De werkelijke effecten van deze democratisering zijn nog onzeker. Zal het een nieuwe golf van creativiteit en innovatie creëren, of zal het de bestaande problemen van misinformatie en digitale manipulatie verergeren?

Bron van de hoofdafbeelding: Kerem Gülen/Midjourney

Tags: KI Uitgelicht video

CogVideoX uitgeprobeerd, een andere open-source tekst-naar-video AI

Related Posts

Openai komt cybersecurity in met $ 43 miljoen Deepfake Bet

Eindelijk is Midjourney V7 live, maar het ontbreekt cruciale functies

Amazon’s AI winkelt nu het hele internet voor jou

Notebooklm Creator voert nu Google’s Gemini uit

GPT-4.5 Out-humans mensen in een nieuwe test

Zijn AI-agenten de nieuwe must-have?

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

CogVideoX uitgeprobeerd, een andere open-source tekst-naar-video AI

CogVideoX: Nieuwe open-source tekst-naar-video AI-tool

Hoe probeer ik CogVideoX?

We gaan steeds meer deepfakes zien

Related Posts

Openai komt cybersecurity in met $ 43 miljoen Deepfake Bet

Eindelijk is Midjourney V7 live, maar het ontbreekt cruciale functies

Amazon’s AI winkelt nu het hele internet voor jou

Notebooklm Creator voert nu Google’s Gemini uit

GPT-4.5 Out-humans mensen in een nieuwe test

Zijn AI-agenten de nieuwe must-have?

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us