Reddit klaagt Perplexity aan wegens vermeende grootschalige data-scraping

Reddit heeft ingediend een rechtszaak tegen het antwoordapparaatbedrijf Perplexity en drie data-scraping-serviceproviders, SerpApi, Oxylabs en AWMProxy. De juridische actie is bedoeld om een halt toe te roepen aan wat de klacht van Reddit beschrijft als de onwettige omzeiling van de gegevensbescherming op industriële schaal. De klacht beweert dat Perplexity een klant is van ten minste één van deze dataschrapende bedrijven. Reddit gebruikt een metafoor om de vermeende activiteit te beschrijven, waarbij de aanbieders worden vergeleken met ‘zogenaamde bankovervallers’ die, omdat ze niet direct toegang hebben tot de gegevenskluis van het bedrijf, zich in plaats daarvan richten op de ‘gepantserde vrachtwagen’ die de informatie vervoert. Dit impliceert dat de beklaagden via indirecte kanalen toegang hebben tot de inhoud van Reddit. De rechtszaak beweert dat Perplexity ervoor kiest om via deze middelen gegevens te verwerven in plaats van een directe licentieovereenkomst na te streven, een pad dat sommige van zijn concurrenten hebben gevolgd. Volgens de rechtbank heeft Reddit in mei 2024 een last onder dwangsom geschreven aan Perplexity, waarin hij eiste dat het zou stoppen met het schrappen van gegevens van het platform. Na de bezorging van deze brief is naar verluidt het aantal citaten van Reddit dat op de service van Perplexity verscheen toegenomen. Om dit verder te onderzoeken heeft Reddit een bericht op zijn platform geplaatst dat zo is geconfigureerd dat het alleen door Google kan worden gecrawld. Het bedrijf stelt dat de antwoordengine van Perplexity “binnen enkele uren” de inhoud van dit specifieke bericht produceerde. Reddit beweert dat de enige manier waarop Perplexity deze inhoud had kunnen verkrijgen, was als zij, of haar medebeklaagden, de zoekresultaten van Google op Reddit-inhoud zouden schrappen en deze snel in hun systeem zouden integreren.

Samsung lanceert de Perplexity TV-app met Vision AI

De door gebruikers gegenereerde inhoud van het platform, die bestaat uit berichten die door mensen zijn geschreven en gerangschikt over een breed scala aan onderwerpen, is een waardevolle hulpbron geworden voor het trainen van modellen voor kunstmatige intelligentie. In 2023 implementeerde Reddit API-wijzigingen die leidden tot gebruikersprotesten; Het bedrijf positioneerde deze veranderingen als een manier om ervoor te zorgen dat het gecompenseerd werd voor het gebruik van zijn gegevens door AI-ontwikkelaars. Sindsdien heeft Reddit datalicentieovereenkomsten gesloten met bedrijven als OpenAI en Google en zoekt het naar verluidt naar aanvullende regelingen. Dit is niet de eerste juridische uitdaging van Reddit op dit gebied; Het bedrijf klaagde eerder Anthropic aan, omdat het beweerde dat zijn bots toegang bleven krijgen tot de site nadat het bedrijf anders had verklaard. Ben Lee, Chief Legal Officer van Reddit, beschreef de situatie als een “datawitwaseconomie” op industriële schaal, aangewakkerd door een AI-wapenwedloop om hoogwaardige menselijke inhoud. Hij verklaarde: “Scrapers omzeilen technologische beveiligingen om gegevens te stelen en verkopen deze vervolgens aan klanten die hongerig zijn naar trainingsmateriaal. Reddit is een belangrijk doelwit omdat het een van de grootste en meest dynamische collecties van menselijke gesprekken is die ooit zijn gemaakt.” Lee identificeerde de medebeklaagden Oxylabs UAB, AWM Proxy en SerpAI als ‘schoolvoorbeelden van dit illegale gedrag’ en beschreef hen als een obscure Litouwse schraper, een voormalig Russisch botnet en een bedrijf dat reclame maakt voor twijfelachtige tactieken. Hij voegde eraan toe: “Ze kunnen Reddit niet rechtstreeks schrapen, ze maskeren hun identiteit, verbergen hun locaties en vermommen hun webschrapers om Reddit-inhoud van Google Zoeken te stelen.” In reactie op de rechtszaak verklaarde Jesse Dwyer, hoofd communicatie van Perplexity, dat het bedrijf de juridische aanvraag nog niet had ontvangen. Dwyer vertelde De rand“we zullen altijd krachtig strijden voor de rechten van gebruikers op vrije en eerlijke toegang tot publieke kennis.” Hij voegde eraan toe: “Onze aanpak blijft principieel en verantwoordelijk, omdat we feitelijke antwoorden bieden met nauwkeurige AI, en we geen bedreigingen tegen de openheid en het publieke belang tolereren.”

Uitgelicht beeldtegoed