Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

CogVideoX uitgeprobeerd, een andere open-source tekst-naar-video AI

byKerem Gülen
5 september 2024
in Kunstmatige Intelligentie
Home Nieuws Kunstmatige Intelligentie
Share on FacebookShare on Twitter
Google Preferred Source

Tsinghua-universiteit En Zhipu-AI hebben in samenwerking CogVideoX geïntroduceerd, een open-source tekst-naar-videomodel dat klaar is om AI-zwaargewichten als Landingsbaan, Luma-AIEn Pika-laboratoriaDeze innovatie, die in een recente publicatie van arXiv wordt beschreven, biedt ontwikkelaars over de hele wereld geavanceerde mogelijkheden voor videogeneratie.

CogVideoX: Nieuwe open-source tekst-naar-video AI-tool

“We introduceren CogVideoX, grootschalige diffusietransformatormodellen die zijn ontworpen voor het genereren van video’s op basis van tekstprompts. Om videodata efficiënt te modelleren, stellen we voor om een ​​3D Variational Autoencoder (VAE) te gebruiken om video’s te comprimeren langs zowel ruimtelijke als temporele dimensies. Om de tekst-video-uitlijning te verbeteren, stellen we een experttransformator voor met de expert adaptieve LayerNorm om de diepe fusie tussen de twee modaliteiten te vergemakkelijken. Door een progressieve trainingstechniek te gebruiken, is CogVideoX bedreven in het produceren van coherente, langdurige video’s die worden gekenmerkt door significante bewegingen,” de papier leest.

De Tsinghua Universiteit is sterk betrokken bij AI-onderzoek, met een aantal opmerkelijke projecten op zijn naam.
Onlangs werkten ze samen aan OpenVoice, een open-source platform voor het klonen van stemmen dat samen met MIT is ontwikkeld en MijnShellen nu hebben ze CogVideoX-5B geïntroduceerd, een tekst-naar-videomodel. Ze zijn ook een partnerschap aangegaan met Shengshu Technology om Vidu-AIeen tool die is ontworpen om het maken van video’s met behulp van AI te vereenvoudigen.

CogVideoX kan op basis van eenvoudige tekstberichten hoogwaardige, samenhangende video’s van maximaal zes seconden maken.

Het opvallende model, CogVideoX-5B, heeft 5 miljard parameters en produceert video’s met een resolutie van 720×480 en 8 frames per seconde. Hoewel deze specificaties misschien niet kunnen wedijveren met de nieuwste propriëtaire systemen, ligt de echte doorbraak in de open-sourcebenadering van CogVideoX.

Open-sourcemodellen revolutioneren het veld door rhun code- en modelgewichten vrijgeven voor het publiek heeft het Tsinghua-team effectief een technologie gedemocratiseerd die ooit het domein was van goed gefinancierde techgiganten. Deze stap zal naar verwachting de vooruitgang in AI-gegenereerde video versnellen door gebruik te maken van de collectieve expertise van de wereldwijde ontwikkelaarscommunity.

De onderzoekers bereikten de indrukwekkende resultaten van CogVideoX door middel van verschillende belangrijke innovaties, waaronder een 3D Variationele Autoencoder voor efficiënte videocompressie en een “experttransformator” die is ontworpen om de uitlijning van tekst en video te verbeteren.

“Om de uitlijning tussen video’s en teksten te verbeteren, stellen we een expert Transformer voor met expert adaptieve LayerNorm om de fusie tussen de twee modaliteiten te vergemakkelijken”, legt het artikel uit. Deze doorbraak maakt een nauwkeurigere interpretatie van tekstprompts en een nauwkeurigere videogeneratie mogelijk.

Hoe probeer ik CogVideoX?

  • Begin door naar het HuggingFace-platform te gaan waar de CogVideoX-5B open-source videogeneratietool is beschikbaar voor testen.
CogVideoX is een andere open-source tekst-naar-video AI
Stap 1
  • Maak een beschrijvende opdracht voor de video die u wilt genereren. Wij gebruikten bijvoorbeeld:
Een vredig tuintafereel waarin een enkele vlinder sierlijk door de lucht fladdert, zijn levendige vleugels vangen het licht terwijl hij zachtjes landt op de uitgestoken hand van een kind. De ogen van het kind worden wijd van ontzag, en vangen de magie van het moment terwijl de vlinder voorzichtig op hun kleine vingers rust. Om hen heen wiegen bloeiende bloemen zachtjes in de wind, terwijl een verre stroom zachtjes kabbelt, wat een gevoel van kalmte toevoegt aan de serene atmosfeer. De hand van het kind blijft vastberaden en biedt een warm welkom aan het tere wezen, wat een verbinding belichaamt tussen onschuld en de wonderen van de natuur.
  • Zodra uw prompt klaar is, Klik op de knop om de video te genereren. U moet even wachten terwijl de tool uw verzoek verwerkt en de video maakt op basis van uw beschrijving.
CogVideoX is een andere open-source tekst-naar-video AI
Stap 2
  • Nadat de video is gegenereerd, kunt u deze rechtstreeks van het platform downloaden. Hiermee kunt u het resultaat van uw opdracht bekijken en zien hoe nauwkeurig de tool uw beschrijving heeft geïnterpreteerd.
CogVideoX is een andere open-source tekst-naar-video AI
Stap 3
  • Bekijk de video. Hoewel het resultaat misschien niet overweldigend is, is het belangrijk om op te merken dat dit soort tools snel verbeteren. Net zoals we zagen met de evolutie van ChatGPT, is een significante doorbraak in AI-gegenereerde video waarschijnlijk in aantocht.

Heb het uitgeprobeerd – hoewel het nog niet overweldigend is, duiken deze tools overal op. Verwacht binnenkort een doorbraak, net zoals we zagen met ChatGPT. foto.twitter.com/53xYz6lBLf

— Kerem Gülen (@kgulenn) 28 augustus 2024

We gaan steeds meer deepfakes zien

Toch brengt de brede beschikbaarheid van zulke krachtige technologie ook gevaren met zich mee. Het potentieel voor misbruik, met name bij het maken van deepfakes of misleidende content, is een serieus probleem waar de AI-community mee te maken krijgt. De onderzoekers zelf erkennen deze ethische zorgen en dringen erop aan dat de technologie verantwoord wordt gebruikt.

Nu AI-gegenereerde video steeds toegankelijker en geavanceerder wordt, begeven we ons op onbekend terrein in de creatie van digitale content. De lancering van CogVideoX zou een heel belangrijk moment kunnen zijn, waarbij de macht van de grote spelers in het veld mogelijk wordt herverdeeld naar een opener, gedecentraliseerd model van AI-ontwikkeling.

De werkelijke effecten van deze democratisering zijn nog onzeker. Zal het een nieuwe golf van creativiteit en innovatie creëren, of zal het de bestaande problemen van misinformatie en digitale manipulatie verergeren?


Bron van de hoofdafbeelding: Kerem Gülen/Midjourney

Tags: KIUitgelichtvideo

Related Posts

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

3 juni 2026
Microsoft onthult Project Solara voor een agent-first toekomst

Microsoft onthult Project Solara voor een agent-first toekomst

3 juni 2026
Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

3 juni 2026
OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

3 juni 2026
Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

2 juni 2026
Populair Codex-pakket betrapt op het exfiltreren van authenticatiegegevens

Populair Codex-pakket betrapt op het exfiltreren van authenticatiegegevens

2 juni 2026

Recent Posts

  • De opt-outregels voor Google AI-zoekopdrachten zorgen voor de lancering van de Enviromates-browser
  • Sony onthult God of War: Laufey voor PS5
  • Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten
  • Microsoft onthult Surface RTX Spark Dev Box voor AI-workloads
  • Intel’s nieuwe Core Ultra-chips zijn naar verluidt schaars

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.