Een recente studie van Icaro Lab testte poëtische structuren om grote taalmodellen (LLM’s) ertoe aan te zetten verboden informatie te genereren, inclusief details over de constructie van een atoombom. In hun onderzoek, getiteld “Tegenstrijdige poëzie als universeel single-turn jailbreakmechanisme in grote taalmodellenOnderzoekers van Icaro Lab omzeilden de veiligheidsmechanismen van AI-chatbots door gebruik te maken van poëtische prompts. Uit het onderzoek bleek dat de ‘poëtische vorm werkt als een jailbreak-operator voor algemene doeleinden’ en een succespercentage van 62 procent behaalde bij het produceren van verboden inhoud. Deze inhoud bevatte informatie over kernwapens, materiaal over seksueel misbruik van kinderen en zelfmoord of zelfbeschadiging. Onderzoekers testten verschillende populaire LLM’s, waaronder de GPT-modellen van OpenAI, Google Gemini en Claude van Anthropic. Google Gemini, DeepSeek en MistralAI leverde consistent antwoorden, terwijl de GPT-5-modellen van OpenAI en Claude Haiku 4.5 van Anthropic minder snel hun beperkingen zouden omzeilen Bedraad dat het vers “te gevaarlijk is om met het publiek te delen.” Er werd een afgezwakte versie verstrekt om het gemak van omzeiling te illustreren. Onderzoekers lieten Wired weten dat het “waarschijnlijk gemakkelijker is dan je zou denken, en dat is precies waarom we voorzichtig zijn.”





