Openai wordt geconfronteerd met beschuldigingen van het trainen van zijn AI -modellen op auteursrechtelijk beschermd materiaal zonder toestemming, als een nieuw papier beweert dat het bedrijf betaalbare boeken van O’Reilly Media heeft gebruikt om zijn GPT-4O-model te trainen. Het AI Disclosures-project, een non-profitorganisatie mede opgericht door Tim O’Reilly en Ilan Strauss, publiceerde de krant.
AI -modellen fungeren als voorspellingsmotoren, leerpatronen uit uitgebreide gegevens zoals boeken en films om te extrapoleren van prompts. Hoewel sommige AI-laboratoria door AI gegenereerde gegevens gebruiken naarmate bronnen uit de praktijk afnemen, brengt training op puur synthetische gegevens risico’s met zich mee, zoals de prestaties van een model beïnvloeden.
De methodologie van de krant, Dekholtebepaalt of een model onderscheid maakt tussen teksten door mensen en geautoriseerde en AI-gegenereerde parafrases. Dit suggereert of het model voorkennis heeft van zijn trainingsgegevens. Onderzoekers onderzochten GPT-4O, GPT-3.5 Turbo en andere OpenAI-modellen, met behulp van 13.962 fragmenten uit 34 O’Reilly-boeken om de kans op opname in trainingsdatasets te schatten.
Resultaten gaven aan dat GPT-4O aanzienlijk meer betaalbare O’Reilly-boekinhoud herkende dan oudere modellen zoals GPT-3.5 Turbo. Volgens de krant, GPT-4O Erkent waarschijnlijk veel niet-openbare O’Reilly-boeken die zijn gepubliceerd vóór de trainingsverloopdatum. O’Reilly heeft volgens de krant geen licentieovereenkomst met Openai.
De co-auteurs erkennen dat de methode niet waterdicht is en dat OpenAI mogelijk fragmenten heeft verzameld uit chatgpt-ingangen van gebruikers. Een ander voorbehoud is dat recentere OpenAI-modellen, waaronder GPT-4.5, niet werden geëvalueerd.
OpenAI, pleiten voor lossere auteursrechtbeperkingen, heeft gezocht naar trainingsgegevens van hogere kwaliteit, waarbij journalisten worden ingehuurd om modeluitgangen te verfijnen. Het bedrijf heeft ook licentieovereenkomsten met nieuwsuitgevers en biedt opt-outmechanismen voor auteursrechteigenaren. Openai heeft geen commentaar op de krant gegeven.