Een voorgestelde class action-rechtszaak, aangespannen door de Oregon-auteur Elizabeth Lyon, beschuldigt Adobe ervan zijn SlimLM AI-model te trainen op illegale boeken, inclusief haar reisgidsen, via de SlimPajama-627B-dataset afgeleid van de RedPajama-collectie met Books3. Adobe heeft de afgelopen jaren een uitgebreide ontwikkeling op het gebied van kunstmatige intelligentie nagestreefd. Het bedrijf lanceerde vanaf 2023 meerdere AI-diensten, waarbij Firefly diende als zijn AI-aangedreven mediageneratiesuite, ontworpen voor het maken van afbeeldingen, video’s en andere media-inhoud op basis van tekstprompts en invoer.
SlimLM vertegenwoordigt een reeks kleine taalmodellen die Adobe specifiek heeft geoptimaliseerd voor documentondersteuningstaken op mobiele apparaten. Deze modellen maken functies mogelijk zoals het samenvatten van documenten, het extraheren van belangrijke informatie en het bieden van contextuele hulp rechtstreeks binnen mobiele applicaties. Adobe staten dat het SlimLM vooraf heeft getraind met behulp van de SlimPajama-627B-dataset. Hersenen uitgegeven deze dataset in juni 2023 als een gededupliceerde, open-sourcebron met meerdere corpora, bedoeld voor het trainen van grote taalmodellen. De dataset voegt verschillende tekstbronnen samen na het verwijderen van duplicaten om de trainingsefficiëntie en modelprestaties te verbeteren. Elizabeth Lyon, gespecialiseerd in handleidingen voor het schrijven van non-fictie, startte de rechtszaak en beweerde dat Adobe illegale versies van talloze boeken, waaronder haar eigen werken, had opgenomen in het trainingsproces voor SlimLM. De juridische actie streeft naar de status van class action om andere betrokken auteurs te vertegenwoordigen. De rechtszaak beschrijft hoe de SlimPajama-dataset voortkwam uit de RedPajama-dataset, die de Books3-collectie omvat die 191.000 boeken omvat. Reuters eerst gerapporteerd op de indiening. In de klacht staat letterlijk: “De SlimPajama-dataset is gemaakt door het kopiëren en manipuleren van de RedPajama-dataset (inclusief het kopiëren van Books3).” Het vervolgt: “Omdat het een afgeleide kopie is van de RedPajama-dataset, bevat SlimPajama dus de Books3-dataset, inclusief de auteursrechtelijk beschermde werken van eiser en de groepsleden.” Lyon beweert dat haar auteursrechtelijk beschermde materialen zonder haar toestemming of compensatie in deze pre-trainingsgegevens verschenen. Books3 is herhaaldelijk naar voren gekomen in juridische geschillen binnen de AI-sector, omdat ontwikkelaars het hebben gebruikt om generatieve AI-systemen te trainen. De collectie bevat gedigitaliseerde teksten van verschillende genres en auteurs, waardoor het een uitgebreid maar controversieel trainingscorpus is. RedPajama, waar Books3 deel van uitmaakt, is ook in meerdere rechtszaken genoemd.




