Google Deepmind CEO Demis Hassabis onthulde plannen om uiteindelijk de Gemini AI van het bedrijf te versmelten met zijn VEO -videogerator Mogelijk podcast.
Hassabis legde uit dat de strategie overeenkomt met hun visie op een “Universal Digital Assistant” die gebruikers kan helpen in real-world scenario’s. “We hebben altijd Gemini, ons funderingsmodel, vanaf het begin multimodaal gebouwd,” verklaarde hij op de podcast mede georganiseerd door Reid Hoffman.
Deze beweging weerspiegelt een bredere industrie naar veelzijdige “Omni” -modellen. De nieuwste Gemini -versies van Google behandelen al audio-, afbeelding- en tekstgeneratie, terwijl rivalen zoals Openai Enable het maken van afbeeldingen In Chatgpt en Amazon intent om een ”elk-aan-aan-date” model te lanceren.
Het ontwikkelen van deze uitgebreide modellen vereist enorme datasets die video, afbeeldingen, audio en tekst overspannen. Hassabis liet doorschemeren dat de videogegevens die VEO tanken grotendeels afkomstig is van YouTube, een platform van Google.
Hij werkte dat uit dat door uitgebreide YouTube-inhoud te verwerken, Veo leert over de fysica in de praktijk. ‘[Veo 2] Kan, weet je, de fysica van de wereld uitzoeken, “zei Hassabis met betrekking tot het model dat” veel YouTube -video’s “keek.
Google heeft eerder erkend Techcrunch De modellen “kunnen zijn” getraind op “sommige” YouTube -inhoud, in overeenstemming met overeenkomsten met makers. Rapporten suggereren dat Google vorig jaar zijn servicevoorwaarden heeft bijgewerkt, waardoor de toegang tot gegevens voor AI -training mogelijk wordt uitgebreid.