NVIDIA heeft onthuld Fugatto, een generatief AI-model dat audio-inhoud kan creëren en aanpassen. Het model is bedoeld om muziekproducenten, filmmakers en game-ontwikkelaars te helpen door hen in staat te stellen nieuwe geluiden te genereren via tekstprompts. Fugatto combineert verschillende mogelijkheden voor audiogeneratie en maakt gebruik van geavanceerde algoritmen om creatieve processen in de audio-industrie te verbeteren.
NVIDIA onthult Fugatto, een generatieve AI voor audiocreatie
Fugattoeen afkorting van Foundational Generative Audio Transformer Opus 1, werd geïntroduceerd door NVIDIA, ’s werelds toonaangevende leverancier van chips en software voor AI-systemen. De technologie kan geluid uit bestaande audiobestanden genereren en wijzigen, waardoor deze zich onderscheidt van eerdere modellen. Het kan bijvoorbeeld een pianomelodie in een menselijke stem transformeren of het accent en de emotionele toon van een gesproken opname wijzigen. Dankzij deze flexibiliteit kunnen makers een reeks innovatieve toepassingen op verschillende gebieden verkennen.
Het team achter Fugatto bestaat uit meer dan een dozijn onderzoekers, waaronder Rafael Valle, NVIDIA’s manager toegepast audioonderzoek. Valle benadrukte het doel van het project: “We wilden een model creëren dat geluid begrijpt en genereert zoals mensen dat doen.” De sleutel tot het ontwerp van Fugatto is het vermogen om meerdere taken te integreren die verband houden met het genereren en transformeren van audio, waarbij opkomende eigenschappen worden getoond die voortkomen uit de uitgebreide trainingsgegevens.
Gebruikers kunnen Fugatto instrueren met aanwijzingen in vrije vorm om soundscapes, muziekfragmenten of zelfs unieke geluidseffecten te creëren. Een producer kan bijvoorbeeld snel verschillende stijlen of instrumenten voor een nummer prototypen. Fugatto beschikt met name over technieken als ComposableART, waarmee gebruikers verschillende opdrachten kunnen samenvoegen. Testen brachten verrassende resultaten aan het licht, zoals gesuggereerd door Rohan Badlani, een AI-onderzoeker die betrokken was bij het model, die de ervaring ondanks zijn technische achtergrond als artistiek lonend omschreef.
Tijdens de training gebruikte Fugatto 2,5 miljard parameters en werd ontwikkeld op NVIDIA’s krachtige DGX-systemen met 32 H100 Tensor Core GPU’s. De training van het model was gebaseerd op een diverse, gemengde dataset met miljoenen audiofragmenten, waardoor de multi-accent- en meertalige functionaliteit werd verbeterd. De ontwikkeling van dit ambitieuze project duurde ook meer dan een jaar, waarbij het team verschillende uitdagingen op het gebied van datageneratie en modeltraining overwon.
Fugatto biedt verschillende mogelijke toepassingen, onder meer voor reclamebureaus en taalleerplatforms. Er is gesuggereerd dat marketingcampagnes zouden kunnen profiteren van de mogelijkheid om voice-overs aan te passen met verschillende accenten of stemmingen. In het onderwijs kunnen leerlingen genieten van gepersonaliseerde cursussen met bekende stemmen. Game-ontwikkelaars zouden in-game audio dynamisch kunnen aanpassen, door interactieve elementen te integreren die reageren op gebruikersacties.
Hoewel de mogelijkheden van Fugatto indrukwekkend zijn, heeft NVIDIA geen onmiddellijke plannen aangekondigd om deze technologie aan het publiek vrij te geven. Het bedrijf uit zijn bezorgdheid over mogelijk misbruik van generatieve AI, waarbij Bryan Catanzaro, NVIDIA’s vice-president van toegepast deep learning-onderzoek, het belang van voorzichtigheid benadrukt gezien de risico’s die aan dergelijke technologie zijn verbonden. OpenAI en andere bedrijven in het veld worden geconfronteerd met soortgelijke uitdagingen met betrekking tot de verantwoorde inzet van hun modellen, met name op het gebied van intellectuele eigendomsrechten en desinformatie.
Uitgelichte afbeeldingscredits: Nvidia