Beveiligingsonderzoeker Johann Rehberger heeft een ernstige kwetsbaarheid in ChatGPT blootgelegd die aanvallers in staat zou kunnen stellen om onjuiste gegevens samen met schadelijke instructies in de instellingen van een gebruiker op te slaan voor langetermijngeheugen. Nadat hij de fout aan OpenAI had gemeld, merkte Rehberger dat het bedrijf het aanvankelijk afdeed als een veiligheidsprobleem in plaats van een beveiligingsprobleem. Nadat Rehberger een proof-of-concept (PoC)-exploit die de kwetsbaarheid gebruikte om alle gebruikersinvoer permanent te exfiltreren, werden technici bij OpenAI zich ervan bewust en brachten eerder deze maand een gedeeltelijke oplossing uit.
Het benutten van het langetermijngeheugen
Volgens Arstechnica, Rehberger gevonden dat u het langetermijngeheugen van ChatGPT kunt wijzigen met behulp van indirecte promptinjectie. Deze methode staat aanvallers toe om valse herinneringen of aanwijzingen in te sluiten in niet-vertrouwd materiaal zoals geüploade e-mails, blogberichten of documenten.
Rehbergers PoC toonde aan dat het misleiden van ChatGPT om een kwaadaardige weblink te openen de aanvaller volledige controle gaf over het vastleggen en verzenden van alle daaropvolgende gebruikersinvoer en ChatGPT-reacties naar een server die zij controleerden. Rehberger toonde aan hoe de exploit ervoor kon zorgen dat ChatGPT valse informatie zou bewaren, waaronder het idee dat een gebruiker 102 jaar oud was en in de Matrix leefde, wat alle toekomstige discussies zou beïnvloeden.
Antwoord van OpenAI en aanhoudende risico’s
OpenAI reageerde aanvankelijk op Rehbergers rapport door het te sluiten en de kwetsbaarheid te classificeren als een veiligheidskwestie in plaats van een beveiligingsprobleem. Na het delen van de PoC bracht het bedrijf een patch uit om te voorkomen dat de exploit zou functioneren als een exfiltratievector. Toch wees Rehberger erop dat het fundamentele probleem van prompte injecties onopgelost blijft. Terwijl de expliciete strategie voor gegevensdiefstal werd geconfronteerd, konden manipulatieve actoren het geheugeninstrument nog steeds beïnvloeden om gefabriceerde gegevens op te nemen in de langetermijngeheugeninstellingen van een gebruiker.
Rehberger merkte in de videodemonstratie op: “Wat vooral intrigerend is, is dat deze exploit in het geheugen blijft bestaan. De prompt injection integreerde het geheugen succesvol in de langetermijnopslag van ChatGPT, en zelfs bij het starten van een nieuwe chat stopt het niet met het exfiltreren van gegevens.
Dankzij de API die vorig jaar door OpenAI is uitgerold, is deze specifieke aanvalsmethode niet uitvoerbaar via de ChatGPT-webinterface.
Hoe bescherm je jezelf tegen ChatGPT (of LLM) geheugenexploits?
Degenen die gebruik maken van LLM die hun uitwisselingen met ChatGPT veilig willen houden, worden aangemoedigd om tijdens hun sessies uit te kijken naar updates van het geheugensysteem. Eindgebruikers moeten herhaaldelijk gearchiveerde herinneringen controleren en bijwerken op verdachte inhoud. Gebruikers krijgen begeleiding van OpenAI bij het beheren van deze geheugeninstellingen en ze kunnen er bovendien voor kiezen om de geheugenfunctie uit te schakelen om deze mogelijke risico’s te elimineren.
Dankzij de geheugencapaciteit van ChatGPT kunnen gebruikers hun gegevens beschermen tegen mogelijke exploits door op hun hoede te zijn en vooraf maatregelen te nemen.