Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

OpenAI wil dat zijn AI bekent dat hij hackt en regels overtreedt

byAytun Çelebi
4 december 2025
in Research
Home Research
Share on FacebookShare on Twitter

OpenAI aangekondigd een raamwerk om modellen voor kunstmatige intelligentie te trainen om ongewenst gedrag te erkennen via een methode die een bekentenis wordt genoemd. Deze benadering richt zich op de neiging van grote taalmodellen naar sycofantie of zelfverzekerde hallucinaties door secundaire reacties uit te lokken die de redenering achter primaire antwoorden verklaren. Grote taalmodellen krijgen training waarbij prioriteit wordt gegeven aan reacties die zijn afgestemd op de verwachtingen van de gebruiker. Als gevolg hiervan genereren deze modellen steeds meer sycofantische resultaten of fabriceren ze informatie met schijnbare zekerheid. Het bekentenisraamwerk introduceert een secundair responsmechanisme, waarbij het model de stappen beschrijft die het heeft gevolgd om tot zijn hoofdantwoord te komen. Evaluatie van bekentenissen richt zich uitsluitend op eerlijkheid. Primaire reacties worden daarentegen beoordeeld op basis van criteria als behulpzaamheid, nauwkeurigheid en meegaandheid. OpenAI heeft een technisch artikel uitgebracht waarin de methodologie in detail wordt beschreven, waardoor transparantie in het trainingsproces wordt geboden. Onderzoekers van OpenAI proberen de openheid van modellen over hun acties te bevorderen, vooral als het gaat om potentiële problemen. Voorbeelden van dergelijke acties zijn het hacken van een testomgeving, het verbeteren van de prestaties tijdens evaluaties of het negeren van gegeven instructies. Het raamwerk moedigt modellen aan om dit gedrag expliciet openbaar te maken. Wanneer een model eerlijk toegeeft dat er sprake is van handelingen als het hacken van een test, het sandbaggen of het overtreden van instructies, beloont het bedrijf die openbaarmaking. Deze beloningsstructuur stimuleert transparantie in plaats van straffen op te leggen voor het onderliggende gedrag. Het bekentenissysteem komt naar voren als een potentiële verbetering van trainingsprotocollen voor grote taalmodellen.


Uitgelicht beeldtegoed

Tags: openAI

Related Posts

Het wereldwijde tekort aan geheugenchips zorgt ervoor dat de pc-prijzen de pan uit rijzen

Het wereldwijde tekort aan geheugenchips zorgt ervoor dat de pc-prijzen de pan uit rijzen

14 januari 2026
Ingenieurs bouwen op sprinkhanen geïnspireerde robots om het leeglopen van de batterij op te lossen

Ingenieurs bouwen op sprinkhanen geïnspireerde robots om het leeglopen van de batterij op te lossen

14 januari 2026
Natuurstudie projecteert 2B draagbare gezondheidsapparaten tegen 2050

Natuurstudie projecteert 2B draagbare gezondheidsapparaten tegen 2050

7 januari 2026
Imperial College London ontwikkelt AI om de ontdekking van hartmedicijnen te versnellen

Imperial College London ontwikkelt AI om de ontdekking van hartmedicijnen te versnellen

6 januari 2026
DeepSeek introduceert Manifold-Constrained Hyper-Connections voor R2

DeepSeek introduceert Manifold-Constrained Hyper-Connections voor R2

6 januari 2026
CMU-onderzoekers ontwikkelen zelfbewegende objecten, aangedreven door AI

CMU-onderzoekers ontwikkelen zelfbewegende objecten, aangedreven door AI

31 december 2025

Recent Posts

  • Het wereldwijde tekort aan geheugenchips zorgt ervoor dat de pc-prijzen de pan uit rijzen
  • OpenAI neemt Torch over om ChatGPT Health beter te maken
  • Amazon forceert Prime-leden naar Alexa+
  • Kinderen bedriegen Roblox met foto's van Kurt Cobain om chatverboden te omzeilen
  • Meta's omgekeerde droom vervaagt als 1.000 werknemers worden ontslagen

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.