Op 9 september 2025 werd een nieuw AI-model van 32 miljard parameter genaamd K2 Think uitgebracht door de UAE-gebaseerde Mohamed Bin Zayed University of Artificial Intelligence (MBZUAI) en G42-bedrijven. Het model is ontworpen voor geavanceerd redeneren en claimt prestaties die vergelijkbaar zijn met grotere modellen zoals Openai’s O3 en de R1 van Deepseek. Een belangrijk kenmerk van K2 denkt dat de transparantie is, waarmee gebruikers de stapsgewijze redenering van het model in gewone tekst kunnen bekijken. Uren na de release ontdekte onderzoeker Alex Polyakov van Adversa Ai een beveiligingskwetsbaarheid die hij noemde “Gedeeltelijke snelle lekken. “Hoewel zijn aanvankelijke poging om het model te jailbreaken was geblokkeerd, lieten de transparante redeneerlogboeken hem precies zien waarom het verzoek was gemarkeerd. Met behulp van deze informatie verfijnde Polyakov zijn aanpak over meerdere pogingen en omzeilde met succes de waarborgen van K2 THINE, die het model dwingen om instructies te geven voor illegale activiteiten zoals het creëren van malware.
Modeltransparantie creëert een beveiligingsuitdaging
De transparantiefunctie van K2 denkt, bedoeld om gebruikersvertrouwen op te bouwen, legt ook zijn interne logica bloot en creëert een nieuw aanvalsoppervlak. Wanneer het model een kwaadaardige prompt afwijst, kunnen de logboeken de specifieke veiligheidsregel onthullen die is geactiveerd. Een aanvaller kan deze feedback gebruiken om zijn aanwijzingen aan te passen en systematisch beveiligingslagen omzeilen. Dit incident benadrukt de noodzaak voor AI -leveranciers om transparantie te balanceren met robuuste beveiliging, waardoor dezelfde strengheid wordt toegepast op redeneerlogboeken als zij doen op modelleerput.
K2 Think’s mogelijkheden en ontwerp
Ondanks zijn relatief kleine grootte van 32 miljard parameter, is K2 denkt dat is ontworpen om overeen te komen met de redenering, wiskunde en coderingsprestaties van veel grotere modellen. Het is ontworpen voor complexe, meerstaps probleemoplossing en de parametergewichten en trainingsgegevens zijn publiekelijk zichtbaar. Het vermogen van het model om zijn redeneringsproces in eenvoudige, ongefilterde tekst weer te geven, onderscheidt het van andere modellen waar dergelijke logboeken vaak worden samengevat of verborgen voor de gebruiker.
Hoe de kwetsbaarheid van de jailbreak werkt
Polyakov toonde aan dat hoewel eenvoudige jailbreak -pogingen worden geblokkeerd, de gedetailleerde uitleg van het systeem waarom een verzoek wordt geweigerd, kunnen worden benut. Door deze logboeken te analyseren, heeft hij zijn prompts herhaald om de beveiligingsregels een voor een te omzeilen. Dit proces toonde aan dat als de regels van de vangrail worden onthuld, een aanhoudende aanvaller uiteindelijk alle beperkingen kan omzeilen en het model kunnen instrueren om schadelijke inhoud te genereren, zoals malwarecode.
Implicaties in de industrie voor AI -beveiliging
De K2 denkt dat kwetsbaarheid opnieuw ons alle kritische behoefte aan AI -ontwikkelaars toont om het redeneringsproces van een model als een potentieel beveiligingsrisico te behandelen. Onderzoekers suggereren verschillende mitigatiestrategieën om transparante modellen te beschermen:
- Filter gevoelige regelinformatie van openbare logboeken.
- Implementeer “honeypot” beveiligingsregels om aanvallers te misleiden.
- Pas tarieflimieten toe om herhaalde kwaadaardige verzoeken van een enkele gebruiker te blokkeren.
Polyakov beschouwt het incident als een belangrijke leermogelijkheid voor de industrie, en benadrukt dat redeneren zowel een waardevol kenmerk als een kritisch beveiligingsoppervlak is. Door deze kwetsbaarheid aan te pakken, kunnen bedrijven als G42 helpen bij het vaststellen van best practices voor het in evenwicht brengen van transparantie en bescherming in toekomstige AI -systemen.





