Bluesky kampt met een aanzienlijk privacyprobleem na één miljoen openbare berichten werden geschraapt van zijn platform voor AI-training, volgens a 404Media rapport. De dataset, samengesteld door bibliothecaris van machinaal leren Daniel van Strien van het AI-bedrijf Hugging Face, was bedoeld voor gebruik in onderzoek op het gebied van natuurlijke taalverwerking en sociale media-analyse. Hoewel de vertegenwoordigers van Bluesky beweren dat het platform nooit generatieve AI zal trainen op basis van gebruikersgegevens, maakt het open karakter van de API het kwetsbaar voor externe scrapers.
Bluesky wordt geconfronteerd met privacyproblemen vanwege geschrapte gebruikersposts
De betreffende dataset is afkomstig van Bluesky’s Firehose-APIdat een geaggregeerde stroom openbare gegevensupdates biedt, inclusief berichten, vind-ik-leuks en volgers. Van Strien wilde deze dataset gebruiken om onderzoek naar machine learning vooruit te helpen. Het bevatte echter niet alleen de tekst van berichten, maar ook de gedecentraliseerde identificatiegegevens (DID’s) en metagegevens van gebruikers. Nadat berichten in de media het probleem onder de aandacht brachten, werd de dataset snel verwijderd uit Hugging Face vanwege de reacties die het veroorzaakte met betrekking tot de privacy van gebruikers en het gebrek aan toestemming.
Bluesky-gebruikers hebben geen expliciete toestemming gegeven om hun berichten op deze manier te gebruiken, hoewel het beleid van Bluesky dergelijke acties niet categorisch verbiedt. De kern van de controverse ligt in de open structuur van Bluesky’s API, waardoor externe ontwikkelaars vrij toegang hebben tot de openbare gegevens. Volgens een verklaring van een Bluesky-vertegenwoordiger “zouden we graag een manier vinden waarop Bluesky-gebruikers met externe organisaties/ontwikkelaars kunnen communiceren of zij hiermee instemmen”, wat duidt op een poging om de gebruikerscontrole over het delen van gegevens in de toekomst te vergroten.
Bluesky krijgt na de verkiezingen 1,25 miljoen gebruikers
Na de verwijdering van de dataset erkende Van Strien de inbreuk op de transparantie en toestemming in zijn benadering van gegevensverzameling. “Mijn excuses voor deze fout”, verklaarde hij in een vervolgpost op Bluesky. Dit incident dient als een aanwijzing voor gebruikers om beter te begrijpen dat alle inhoud die openbaar op het platform wordt gedeeld, toegankelijk is voor externe entiteiten. Naarmate het platform blijft groeien – onlangs de grens van 20 miljoen gebruikers overschreden – zal Bluesky waarschijnlijk steeds meer onder de loep worden genomen met betrekking tot de gegevensbeschermingsmaatregelen en de privacy van gebruikers.
Bluesky voert momenteel discussies over mechanismen waarmee gebruikers hun toestemmingsvoorkeuren aan derden kunnen kenbaar maken. De handhaving blijft echter een uitdaging; zoals opgemerkt door het platform, zal het uiteindelijk aan externe ontwikkelaars zijn om zich aan deze voorkeuren te houden. De vertegenwoordigers van Bluesky lieten bovendien weten dat ze weliswaar streven naar gesprekken met ingenieurs en juridische teams, maar dat er geen onmiddellijke oplossingen beschikbaar zijn.
Uitgelichte afbeeldingscredits: Blauw lucht