OpenAI, het invloedrijke onderzoekslaboratorium voor kunstmatige intelligentie achter baanbrekende tools als ChatGPT en Sora, is in heet water terechtgekomen na een recent interview met zijn Chief Technology Officer, Mira Murati.
Het interviewuitgevoerd door Wall Street Journal-verslaggever Joanna Stern, gericht op OpenAI’s nieuwste beeld-, of beter gezegd video-generatiesysteem, Sora.
De zorgen concentreren zich rond het mogelijke misbruik van auteursrechtelijk beschermd werk om AI-modellen te trainen gebrek aan doorzichtigheid van OpenAI over zijn datapraktijken.
Sora’s trainingsgegevens zijn in twijfel getrokken
De kern van de controverse ligt in de kwestie van trainingsgegevens, de enorme datasets die worden gebruikt om AI-modellen te trainen.
Toen hem werd gevraagd naar de gegevensbronnen die voor Sora werden gebruikt, gaf Murati het standaardantwoord: het model was getraind op “openbaar beschikbare en gelicentieerde gegevens“.
Uit verder onderzoek bleek echter dat Murati aarzelde en onzeker was over de specifieke details van deze dataset.
Deze reactie heeft rode vlaggen gehesen onder kunstenaars, fotografen en deskundigen op het gebied van intellectueel eigendom. Systemen voor het genereren van AI-beelden zijn sterk afhankelijk van de opname van grote hoeveelheden afbeeldingen, waarvan er vele mogelijk auteursrechtelijk beschermd zijn. Het gebrek aan duidelijkheid rond de trainingsgegevens van Sora roept vragen op over de vraag of OpenAI de rechten van makers van inhoud voldoende heeft gewaarborgd.

Gebruik van Shutterstock werd later erkend
Olie op het vuur gooien was Murati’s aanvankelijke weigering om te onderzoeken of Shutterstock-afbeeldingen een onderdeel waren van Sora’s trainingsdataset. Pas na het interview bevestigde Murati in een voetnoot toegevoegd door de Wall Street Journal het gebruik van de beeldbibliotheek van Shutterstock.
Deze bevestiging is in tegenspraak met het publieke standpunt van OpenAI:openbaar beschikbare en gelicentieerde gegevens‘ en suggereert een poging om potentieel problematische inkooppraktijken te verbergen.
Shutterstock en OpenAI vormden een partnerschap waarbij OpenAI rechten werd verleend om de beeldbibliotheek van Shutterstock te gebruiken bij het trainen van modellen voor het genereren van afbeeldingen, zoals DALL-E 2 en mogelijk Sora.
In ruil daarvoor ontvangen Shutterstock-bijdragers (de fotografen en kunstenaars wier afbeeldingen op het platform staan) een vergoeding wanneer hun werk wordt gebruikt bij de ontwikkeling van deze AI-modellen.
Er ontvouwt zich een PR-nachtmerrie
Het is veilig om te zeggen dat de meeste PR-mensen dit interview niet als een PR-meesterwerk zouden beschouwen.
Murati’s gebrek aan duidelijkheid komt op een gevoelig moment voor OpenAI, worden al geconfronteerd met grote auteursrechtzakenwaaronder een belangrijke ingediend door de New York Times.
Het publiek neemt praktijken als OpenAI’s vermeende geheime gebruik van YouTube-video’s voor modeltraining onder de loep eerder gemeld door The Information. Omdat belanghebbenden, variërend van kunstenaars tot politici, verantwoording eisen, wakkert Murati’s vermijding het vuur alleen maar aan.
De ondoorzichtige aanpak van OpenAI werkt spectaculair averechts. het transformeren van het Sora-interview in een PR-ramp.
OpenAI CTO Mira Murati zegt dat Sora is getraind op openbaar beschikbare en gelicentieerde gegevens pic.twitter.com/rf7pZ0ZX00
— Tsarathustra (@tsarnick) 13 maart 2024
Transparantie is niet voor niets het meest besproken onderwerp
Dit incident onderstreept een cruciale waarheid: het onthullen van de waarheid is van cruciaal belang in de wereld van AI. De struikelblokken van OpenAI hebben het vertrouwen van het publiek ernstig ondermijnd en de vragen over de ethische praktijken ervan geïntensiveerd. De Sora-controverse benadrukt het groeiende refrein eisen een grotere verantwoordelijkheid binnen de AI-industrie.
Murati’s onwil om de details van Sora’s trainingsgegevens bekend te maken, is een reden voor dit probleem wantrouwen en schept een gevaarlijk precedent.
Zonder de duidelijkheid waar kunstenaars, makers en het publiek om vragen, zullen ethische debatten en de mogelijkheden voor juridische stappen alleen maar toenemen.
Er zijn geen engelen in dit land
Hoewel een groot deel van de huidige controle volledig op OpenAI valt, is het van cruciaal belang om dit te onthouden ze zijn niet de enige speler in het spel.
Facebook AI-onderzoek LLaMA-model En Google’s Tweeling hebben ook te maken gehad met beschuldigingen van problematische trainingsgegevensbronnen.

Dit is niet verrassend, aangezien Business Insider-rapporten dat Meta al heeft toegegeven Instagram- en Facebook-posts te gebruiken om zijn AI-modellen te trainen. Aanvullend, De controle van Google over grote delen van het internet geeft hen ongeëvenaarde toegang tot potentiële trainingsgegevens, waardoor soortgelijke ethische zorgen over toestemming en auteursrecht rijzen.
De situatie met OpenAI’s Sora is slechts een stukje van een grotere puzzel. Het hele AI-ontwikkelingsveld wordt geconfronteerd met kritiek op de datapraktijken en de mogelijke ethische implicaties.
Uitgelicht beeldtegoed: Freepik.