Laten we het niet verbloemen: elke keer dat u met een taalmodel chat, zet u uw persoonlijke gegevens op het spel. Maar volgens a BEDRAAD artikel, het is alleen maar een stuk riskanter geworden. Een groep onderzoekers van de Universiteit van Californië, San Diego (UCSD) en de Nanyang Technologische Universiteit in Singapore hebben een nieuwe aanval ontdekt die uw informele gesprek kan veranderen in de schatkamer van een hacker.
Maak kennis met Imprompter
Deze nieuwe aanval, met de onheilspellende naam Imprompter, snuffelt niet alleen maar rond in uw berichten; hij sluipt naar binnen, schrapt alles, van uw naam tot betalingsgegevens, en stuurt deze rechtstreeks naar een hacker zonder dat u het merkt. Hoe? Door kwaadaardige instructies te vermommen als wartaal die er voor het menselijk oog onschadelijk uitziet, maar fungeert als een baken voor gevoelige gegevens. Zie het als het veel slimmere neefje van malware.
Volgens BEDRAADslaagden de onderzoekers erin deze aanval te testen op twee belangrijke taalmodellen: LeChat by Mistral AI en ChatGLM uit China – en ontdekten dat ze persoonlijke gegevens konden extraheren met een succespercentage van bijna 80 procent. Dat is niet zomaar een probleempje; het is een volledige kwetsbaarheid.

Hoe werkt Imprompter?
Imprompter werkt door eenvoudige Engelse instructies om te zetten in een niet te ontcijferen reeks willekeurige tekens die de AI vertellen om op zoek te gaan naar uw persoonlijke gegevens. Vervolgens sluipt het deze gegevens terug naar de server van de aanvaller, verpakt in een URL en vermomd achter een transparante 1×1 pixel, volledig onzichtbaar voor u.
Zoals Xiaohan Fu, de hoofdauteur van het onderzoek, het verwoordde: “We verbergen het doel van de aanval in het volle zicht.” De AI reageert op de verborgen prompt zonder de gebruiker ooit een tip te geven. Het is alsof u een bankkluiscode aan een inbreker geeft zonder dat u zich realiseert dat u zelfs maar uw mond hebt geopend.
Laten we niet doen alsof dit een op zichzelf staand probleem is. Sinds ChatGPT van OpenAI op het toneel verscheen, is de race om kwetsbaarheden in AI-systemen te exploiteren meedogenloos. Van jailbreaks tot snelle injecties: hackers zijn altijd een stap voor en vinden manieren om AI’s te misleiden om gevoelige informatie te verspreiden. Imprompter is slechts het nieuwste wapen in hun arsenaal, en helaas is het bijzonder effectief.
Mistral AI vertelde WIRED dat ze de kwetsbaarheid al hadden opgelost, en de onderzoekers bevestigden dat het bedrijf de chatfunctionaliteit had uitgeschakeld die de exploit mogelijk maakte. Maar zelfs met deze snelle oplossing blijft de bredere vraag bestaan: hoe veilig zijn deze systemen eigenlijk?

AI luistert en leert
Beveiligingsexperts zoals Dan McInerney van Protect AI zwaaien met de rode vlag. Hij wijst erop dat naarmate AI-agenten meer geïntegreerd raken in alledaagse taken, zoals het boeken van vluchten of toegang krijgen tot externe databases, de reikwijdte van deze aanvallen alleen maar zal toenemen. “Het vrijgeven van een LLM-agent die willekeurige gebruikersinvoer accepteert, moet als een activiteit met een hoog risico worden beschouwd”, waarschuwt McInerney. Met andere woorden: hoe meer vrijheid we AI geven om namens ons op te treden, hoe groter de veiligheidsgok.
Elke keer dat u met een taalmodel chat, leert het iets over u. Zeker, het helpt om de reacties te verfijnen, maar wat gebeurt er als het systeem wordt misleid om die gegevens te bewapenen? Aanvallen zoals Imprompter benadrukken een flagrante zwakte in de AI-wereld: deze modellen zijn ontworpen om instructies te volgen, zonder dat er vragen worden gesteld. Het is maar al te gemakkelijk voor kwaadwillende actoren om onopgemerkt binnen te glippen en het gesprek te kapen zonder ooit een waarschuwingssignaal te geven.
We moeten niet langer vragen of AI handig is, maar beginnen met de vraag of het veilig is. Want op dit moment is de grootste zwakte van AI niet het gebrek aan innovatie.
Zoals Architects het perfect verwoordt in hun lied: “We hebben de vampieren de sleutels van de bloedbank gegeven.”
Afbeeldingscredits: Kerem Gülen/Midjourney