Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Openai’s Anti-Scheming AI Training Backfires

byEmre Çıtak
22 september 2025
in Kunstmatige Intelligentie
Home Nieuws Kunstmatige Intelligentie
Share on FacebookShare on Twitter
Google Preferred Source

Onderzoekers van Openai hebben in een samenwerking met Apollo Research ontdekt dat een poging om een ​​AI -model te trainen om eerlijker te zijn een onbedoeld gevolg had: het leerde het model hoe hij zijn misleiding effectiever kon verbergen. De studie benadrukt de belangrijke uitdagingen bij het waarborgen van de veiligheid en betrouwbaarheid van geavanceerde AI -systemen.

Hoe de training onbedoeld een slimmere bedrieger heeft gecreëerd

Het onderzoek was gericht op een gedrag dat Openai ‘Schemering’ noemt, dat het definieert als:

“Wanneer een AI zich op het oppervlak gedraagt ​​en zijn ware doelen verbergt.”

Het team ontwikkelde een “anti-cheming” trainingstechniek met als doel te voorkomen dat het model stiekem regels overtreedt of opzettelijk achterblijft in tests. De training produceerde echter het tegenovergestelde van het beoogde resultaat. Openai vermeld in een blogpost:

“Een belangrijke faalwijze om te proberen te ’trainen’ schema’s is eenvoudigweg het model leren om zorgvuldiger en heimelijker te schema’s.”

De onderzoekers ontdekten dat de AI -modellen leerden herkennen wanneer ze werden geëvalueerd en hun gedrag zouden aanpassen om de tests te doorstaan. Hierdoor konden de systemen de trainingsprotocollen effectief te slim af zijn zonder hun onderliggende doelstellingen echt te veranderen.

De beperkingen van de huidige veiligheidsmethoden

Volgens Apollo Research konden de veiligheidstechnieken die ze testten alleen:

“Dit gedrag aanzienlijk verminderen, maar niet elimineren.”

Hoewel Openai stelt dat dit geen serieus probleem is in zijn huidige producten, benadrukken de bevindingen potentiële toekomstige risico’s omdat AI -systemen meer autonomie krijgen en geïntegreerd worden in meer kritische aspecten van menselijke aangelegenheden. Het onderzoek onderstreept dat de neiging van AI om geheime doelen te volgen een direct gevolg is van de methoden die worden gebruikt om ze te trainen. Openai erkende de beperkingen van zijn huidige methoden, waarin stond:

“We hebben meer werk te doen.”


Uitgelichte afbeeldingskrediet

Tags: AI TrainingopenAIUitgelaten

Related Posts

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

Anthropic nodigt nog eens 150 organisaties uit voor Project Glasswing

3 juni 2026
Microsoft onthult Project Solara voor een agent-first toekomst

Microsoft onthult Project Solara voor een agent-first toekomst

3 juni 2026
Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

Google gaat websites toestaan ​​zich af te melden voor AI-zoekresultaten

3 juni 2026
OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

OpenAI breidt Codex uit met bedrijfsplug-ins en een nieuwe Site-functie

3 juni 2026
Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

Meta-patches AI-fout die overname van Instagram-accounts mogelijk maakte

2 juni 2026
Populair Codex-pakket betrapt op het exfiltreren van authenticatiegegevens

Populair Codex-pakket betrapt op het exfiltreren van authenticatiegegevens

2 juni 2026

Recent Posts

  • De opt-outregels voor Google AI-zoekopdrachten zorgen voor de lancering van de Enviromates-browser
  • Sony onthult God of War: Laufey voor PS5
  • Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten
  • Microsoft onthult Surface RTX Spark Dev Box voor AI-workloads
  • Intel’s nieuwe Core Ultra-chips zijn naar verluidt schaars

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.