AI -agenten kunnen worden bestuurd door kwaadaardige opdrachten verborgen in afbeeldingen

Een onderzoek uit 2025 van de Universiteit van Oxford heeft een beveiligingskwetsbaarheid aangetoond bij AI -agenten, die naar verwachting binnen twee jaar op grote schaal worden gebruikt. In tegenstelling tot chatbots kunnen deze agenten directe acties ondernemen op de computer van een gebruiker, zoals het openen van tabbladen of het invullen van formulieren. Het onderzoek toont aan hoe aanvallers onzichtbare opdrachten in afbeeldingen kunnen insluiten om de controle over deze agenten te nemen.

Hoe de op beeld gebaseerde aanval werkt

Onderzoekers hebben aangetoond dat door subtiele wijzigingen aan de pixels aan te brengen in een afbeelding – zoals een bureaublad behang, een online advertentie of een sociale media -post – ze kwaadaardige commando’s konden insluiten. Hoewel deze wijzigingen onzichtbaar zijn voor het menselijk oog, kan een AI -agent ze als instructies interpreteren. De studie gebruikte een “Taylor Swift” -behang als een voorbeeld. Een enkele gemanipuleerde afbeelding kan een lopende AI -agent opdracht geven om de afbeelding op sociale media te retweet en vervolgens de wachtwoorden van de gebruiker naar een aanvaller te sturen. De aanval treft alleen gebruikers die een AI -agent hebben die op zijn computer actief is.

Waarom zijn wallpapers een effectieve aanvalsvector?

AI -agenten werken door herhaaldelijk screenshots van het bureaublad van de gebruiker te maken om te begrijpen wat er op het scherm staat en elementen te identificeren om mee te communiceren. Omdat een bureaublad wallpaper altijd aanwezig is in deze screenshots, dient het als een aanhoudende leveringsmethode voor een kwaadaardig commando. De onderzoekers ontdekten dat deze verborgen commando’s ook resistent zijn tegen gemeenschappelijke beeldveranderingen zoals het formaat van het formaat en compressie. Open-source AI-modellen zijn bijzonder kwetsbaar omdat aanvallers hun code kunnen bestuderen om te leren hoe ze visuele informatie verwerken. Hierdoor kunnen ze pixelpatronen ontwerpen die het model betrouwbaar als een opdracht zal interpreteren. Met de kwetsbaarheid kunnen aanvallers meerdere opdrachten samenvoegen. Een eerste kwaadwillende afbeelding kan de agent instrueren om naar een website te navigeren, die een tweede kwaadaardig imago zou kunnen organiseren. Deze tweede afbeelding kan vervolgens een andere actie activeren, waardoor een reeks creëert die complexere aanvallen mogelijk maakt.

Wat kan er worden gedaan?

De onderzoekers hopen dat hun bevindingen ontwikkelaars zullen dwingen om beveiligingsmaatregelen op te bouwen voordat AI -agenten wijdverbreid worden. Potentiële verdedigingen omvatten omscholingsmodellen om dit soort gemanipuleerde afbeeldingen te negeren of het toevoegen van beveiligingslagen die voorkomen dat agenten op het scherm gehalten.

Mensen haasten zich om de technologie in te zetten voordat de beveiliging volledig wordt begrepen.

Yarin Gal, professor in Oxford en co-auteur van de studie, uitte zijn bezorgdheid dat de snelle inzet van agenttechnologie beveiligingsonderzoek overtreft. De auteurs verklaarden dat zelfs bedrijven met gesloten-bronmodellen niet immuun zijn, omdat de aanval fundamenteel modelgedrag maakt dat niet kan worden beschermd door code privé te houden.

Uitgelichte afbeeldingskrediet