Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

De nieuwe K2 van de VAE Denk aan AI -model jailbroken uren na release via transparante redeneerlogboeken

byEmre Çıtak
12 september 2025
in Cyberbeveiliging, Kunstmatige Intelligentie
Home Nieuws Cyberbeveiliging
Share on FacebookShare on Twitter
Google Preferred Source

Op 9 september 2025 werd een nieuw AI-model van 32 miljard parameter genaamd K2 Think uitgebracht door de UAE-gebaseerde Mohamed Bin Zayed University of Artificial Intelligence (MBZUAI) en G42-bedrijven. Het model is ontworpen voor geavanceerd redeneren en claimt prestaties die vergelijkbaar zijn met grotere modellen zoals Openai’s O3 en de R1 van Deepseek. Een belangrijk kenmerk van K2 denkt dat de transparantie is, waarmee gebruikers de stapsgewijze redenering van het model in gewone tekst kunnen bekijken. Uren na de release ontdekte onderzoeker Alex Polyakov van Adversa Ai een beveiligingskwetsbaarheid die hij noemde “Gedeeltelijke snelle lekken. “Hoewel zijn aanvankelijke poging om het model te jailbreaken was geblokkeerd, lieten de transparante redeneerlogboeken hem precies zien waarom het verzoek was gemarkeerd. Met behulp van deze informatie verfijnde Polyakov zijn aanpak over meerdere pogingen en omzeilde met succes de waarborgen van K2 THINE, die het model dwingen om instructies te geven voor illegale activiteiten zoals het creëren van malware.

Modeltransparantie creëert een beveiligingsuitdaging

De transparantiefunctie van K2 denkt, bedoeld om gebruikersvertrouwen op te bouwen, legt ook zijn interne logica bloot en creëert een nieuw aanvalsoppervlak. Wanneer het model een kwaadaardige prompt afwijst, kunnen de logboeken de specifieke veiligheidsregel onthullen die is geactiveerd. Een aanvaller kan deze feedback gebruiken om zijn aanwijzingen aan te passen en systematisch beveiligingslagen omzeilen. Dit incident benadrukt de noodzaak voor AI -leveranciers om transparantie te balanceren met robuuste beveiliging, waardoor dezelfde strengheid wordt toegepast op redeneerlogboeken als zij doen op modelleerput.

K2 Think’s mogelijkheden en ontwerp

Ondanks zijn relatief kleine grootte van 32 miljard parameter, is K2 denkt dat is ontworpen om overeen te komen met de redenering, wiskunde en coderingsprestaties van veel grotere modellen. Het is ontworpen voor complexe, meerstaps probleemoplossing en de parametergewichten en trainingsgegevens zijn publiekelijk zichtbaar. Het vermogen van het model om zijn redeneringsproces in eenvoudige, ongefilterde tekst weer te geven, onderscheidt het van andere modellen waar dergelijke logboeken vaak worden samengevat of verborgen voor de gebruiker.

Hoe de kwetsbaarheid van de jailbreak werkt

Polyakov toonde aan dat hoewel eenvoudige jailbreak -pogingen worden geblokkeerd, de gedetailleerde uitleg van het systeem waarom een ​​verzoek wordt geweigerd, kunnen worden benut. Door deze logboeken te analyseren, heeft hij zijn prompts herhaald om de beveiligingsregels een voor een te omzeilen. Dit proces toonde aan dat als de regels van de vangrail worden onthuld, een aanhoudende aanvaller uiteindelijk alle beperkingen kan omzeilen en het model kunnen instrueren om schadelijke inhoud te genereren, zoals malwarecode.

Implicaties in de industrie voor AI -beveiliging

De K2 denkt dat kwetsbaarheid opnieuw ons alle kritische behoefte aan AI -ontwikkelaars toont om het redeneringsproces van een model als een potentieel beveiligingsrisico te behandelen. Onderzoekers suggereren verschillende mitigatiestrategieën om transparante modellen te beschermen:

  • Filter gevoelige regelinformatie van openbare logboeken.
  • Implementeer “honeypot” beveiligingsregels om aanvallers te misleiden.
  • Pas tarieflimieten toe om herhaalde kwaadaardige verzoeken van een enkele gebruiker te blokkeren.

Polyakov beschouwt het incident als een belangrijke leermogelijkheid voor de industrie, en benadrukt dat redeneren zowel een waardevol kenmerk als een kritisch beveiligingsoppervlak is. Door deze kwetsbaarheid aan te pakken, kunnen bedrijven als G42 helpen bij het vaststellen van best practices voor het in evenwicht brengen van transparantie en bescherming in toekomstige AI -systemen.


Uitgelichte afbeeldingskrediet

Tags: BeveiligingjailbreakK2 denk aan AI -modelUitgelaten

Related Posts

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

3 juni 2026
Microsoft onthult Project Solara voor een agent-first toekomst

Microsoft onthult Project Solara voor een agent-first toekomst

3 juni 2026
Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

3 juni 2026
OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

3 juni 2026
Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

2 juni 2026
GTA V-cheatservice Atlas Menu is gehackt, waardoor 64.000 accounts zijn blootgelegd

GTA V-cheatservice Atlas Menu is gehackt, waardoor 64.000 accounts zijn blootgelegd

2 juni 2026

Recent Posts

  • De opt-outregels voor Google AI-zoekopdrachten zorgen voor de lancering van de Enviromates-browser
  • Sony onthult God of War: Laufey voor PS5
  • Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten
  • Microsoft onthult Surface RTX Spark Dev Box voor AI-workloads
  • Intel’s nieuwe Core Ultra-chips zijn naar verluidt schaars

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.