ChatGPT Atlas wordt uitgebuit met eenvoudige Google Docs-trucs

OpenAI lanceerde zijn ChatGPT Atlas AI-browser in oktober, wat beveiligingsonderzoekers ertoe aanzette om snelle injectie-kwetsbaarheden aan te tonen via Google Docs-invoer die het browsergedrag veranderden, zoals het bedrijf op maandag heeft beschreven. blogpost terwijl we toegeven dat dergelijke aanvallen voortduren. Prompt-injectie vertegenwoordigt een type aanval waarbij AI-agenten worden gemanipuleerd om kwaadaardige instructies op te volgen, vaak verborgen in webpagina’s of e-mails. OpenAI geïntroduceerd ChatGPT Atlas in oktober werd een AI-aangedreven browser ontworpen om te werken met verbeterde agentmogelijkheden op het open web. Op de lanceringsdag publiceerden beveiligingsonderzoekers demonstraties die onthulden hoe het invoeren van een paar woorden in Google Documenten het gedrag van de onderliggende browser kon veranderen. Deze demo’s brachten de onmiddellijke veiligheidsproblemen met het nieuwe product aan het licht en lieten praktische methoden zien om het systeem via indirecte input te exploiteren. Brave bracht op dezelfde dag als de lancering een blogpost uit, waarin indirecte promptinjectie werd behandeld als een systematische uitdaging voor door AI aangedreven browsers. Het bericht verwees specifiek naar Perplexity’s Comet naast andere soortgelijke tools, en onderstreepte dat deze kwetsbaarheid zich over de hele sector uitstrekt en niet geïsoleerd is in het aanbod van OpenAI. Brave’s analyse omschreef het probleem als inherent aan de architectuur van browsers die generatieve AI-functionaliteiten integreren.

Functie	Functie / risico	Mitigatiestrategie
Agent-modus	Scant autonoom e-mails en stelt antwoorden op.	Mens-in-de-loop: Vereist bevestiging voor betalingen of verzendingen.
Snelle injectie	Verborgen tekst op websites/e-mails die de bedoeling van de gebruiker overschrijft.	RL-aanvaller: Een AI-bot die de browser “pre-hackt” om fouten te vinden.
Toegang tot gegevens	Hoog (volledige toegang tot ingelogde sessies, inboxen).	Beperkte rechten: Gebruikers wordt geadviseerd om specifieke, beperkte taken te geven.
Autonomie niveau	Matig (voert workflows uit meerdere stappen uit).	Snelle patchcyclus: Interne simulatie van aanvallen met een lange horizon.

Eerder deze maand waarschuwde het Britse National Cyber Security Centre voor snelle injectie-aanvallen gericht op generatieve AI-toepassingen. Het bureau verklaarde dat dergelijke aanvallen “misschien nooit volledig kunnen worden afgezwakt”, waardoor websites het risico lopen op datalekken. Het centrum gaf cyberprofessionals opdracht zich te concentreren op het verminderen van het risico en de impact van deze injecties, in plaats van aan te nemen dat aanvallen volledig konden worden gestopt. In deze richtlijnen werd de nadruk gelegd op praktisch risicobeheer boven de verwachtingen van totale eliminatie. OpenAI’s blogpost van maandag schetste de inspanningen om ChatGPT Atlas te versterken tegen cyberaanvallen. Het bedrijf schreef: “Het is onwaarschijnlijk dat een snelle injectie, net als oplichting en social engineering op internet, ooit volledig ‘opgelost’ zal worden.” OpenAI gaf verder toe dat de “agentmodus” in ChatGPT Atlas “het oppervlak van veiligheidsdreigingen vergroot.” De post positioneerde prompte injectie als een voortdurend probleem, vergelijkbaar met al lang bestaande webbedreigingen. OpenAI verklaarde: “Wij beschouwen snelle injectie als een AI-veiligheidsuitdaging op de lange termijn, en we zullen onze verdediging ertegen voortdurend moeten versterken.” De Agent-modus zorgt ervoor dat de AI van de browser autonome acties kan uitvoeren, zoals interactie met e-mails of documenten, waardoor de blootstelling aan externe input die verborgen instructies kan bevatten, inherent toeneemt. Deze modus onderscheidt Atlas van traditionele browsers door de AI een grotere operationele speelruimte namens de gebruikers te geven, waardoor potentiële toegangspunten voor manipulaties worden verruimd. Om dit aanhoudende risico aan te pakken, heeft OpenAI een proactieve, snelle reactiecyclus geïmplementeerd, gericht op het intern identificeren van nieuwe aanvalsstrategieën voordat exploitatie plaatsvindt in reële scenario’s. Het bedrijf meldde al vroeg dat deze aanpak veelbelovend was bij het voorkomen van bedreigingen. Deze methode sluit aan bij de strategieën van concurrenten als Anthropic en Google, die pleiten voor gelaagde verdediging en voortdurende stresstests in agentische systemen. De recente inspanningen van Google omvatten bijvoorbeeld architecturale en beleidsniveau-controles die zijn toegesneden op dergelijke omgevingen. OpenAI onderscheidt zijn aanpak door de inzet van een op LLM gebaseerde geautomatiseerde aanvaller, een bot die is getraind via versterkend leren om hackertactieken te simuleren. Deze bot zoekt naar mogelijkheden om kwaadaardige instructies in AI-agents in te voegen. Het voert tests uit in een simulatieomgeving voorafgaand aan elke toepassing in de echte wereld. De simulator repliceert de denkprocessen van de doel-AI en de daaropvolgende acties bij een aanval, waardoor de bot reacties kan analyseren, zijn strategie kan verfijnen en herhaaldelijk kan herhalen. Deze interne toegang tot de redenering van de AI biedt OpenAI een voordeel dat niet beschikbaar is voor externe aanvallers, waardoor snellere foutdetectie mogelijk is. De techniek weerspiegelt de gangbare praktijken bij AI-veiligheidstests, waarbij gespecialiseerde agenten randgevallen onderzoeken door middel van snelle gesimuleerde tests. OpenAI merkte op dat de op versterking leren getrainde aanvaller een agent ertoe kan aanzetten geavanceerde, lange horizon schadelijke workflows uit te voeren die zich over tientallen (of zelfs honderden) stappen ontvouwen. Het bedrijf voegde eraan toe: “We hebben ook nieuwe aanvalsstrategieën waargenomen die niet voorkwamen in onze menselijke red-teaming-campagne of in externe rapporten.” In een specifieke demonstratie in de blogpost plaatste de geautomatiseerde aanvaller een kwaadaardige e-mail in de inbox van een gebruiker. Toen de agentmodus van Atlas de inbox scande om een afwezigheidsbericht op te stellen, volgde het bedrijf de verborgen instructies van de e-mail op en stelde een ontslagbericht op. Dit voorbeeld illustreerde een misleiding die uit meerdere stappen bestond en zich uitstrekte over de verwerking van e-mail en het genereren van berichten, waarbij aanvankelijke veiligheidsmaatregelen werden omzeild. Na een beveiligingsupdate voor Atlas identificeerde de agentmodus de prompt-injectiepoging tijdens het scannen van de inbox en markeerde deze rechtstreeks aan de gebruiker. Deze uitkomst demonstreerde de effectiviteit van de snelle responsmaatregelen bij het in realtime beperken van dreigingen, waardoor werd voorkomen dat de schadelijke actie doorging. OpenAI vertrouwt op grootschalige tests in combinatie met versnelde patchcycli om systemen te beschermen tegen snelle injecties voordat deze zich extern manifesteren. Deze processen maken iteratieve verbeteringen mogelijk op basis van gesimuleerde ontdekkingen, waardoor de verdediging zich samen met potentiële bedreigingen ontwikkelt.

Uitgelicht beeldtegoed