Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Hoe AI zichzelf kan volgen: een nieuwe aanpak voor schaalbaar toezicht

byKerem Gülen
10 februari 2025
in Research
Home Research
Share on FacebookShare on Twitter

Naarmate AI -systemen krachtigere, traditionele toezichtmethoden worden – zoals zoals Supervised verfijning (SFT) en versterking leren van menselijke feedback (RLHF)– worden niet duurzaam. Deze technieken zijn afhankelijk van de menselijke evaluatie, maar naarmate AI begint te overtreffen dan mensen in complexe taken, wordt direct toezicht onmogelijk.

Een studie getiteld “Schaalbaar toezicht voor bovenmenselijke AI via recursieve zelfkritiek”, Geschreven door Xueru Wen, Jie Lou, Xinyu Lu, Junjie Yang, Yanjiang Liu, Yaojie Lu, Debing Zhang en Xingyuverkent een nieuwe aanpak: laten ai evalueer zichzelf door recursieve zelfkritiek. Deze methode stelt voor dat in plaats van te vertrouwen op directe menselijke beoordeling, AI -systemen hun eigen output kunnen bekritiseren, beslissingen kunnen verfijnen door meerdere feedbacklagen.

Het probleem: AI wordt te complex voor menselijk toezicht

AI -afstemming – het proces van het waarborgen van AI -systemen zich gedragen op manieren die zich aansluiten bij menselijke waarden – komt op Supervisiesignalen. Traditioneel komen deze signalen voort uit menselijke evaluaties, maar deze methode Faalt wanneer AI verder werkt dan menselijk begrip.

Bijvoorbeeld:

  • Wiskunde en wetenschap: AI kan complexe bewijzen sneller oplossen dan mensen, waardoor directe evaluatie onhaalbaar is.
  • Lange-vorm content review: Mensen worstelen om massale hoeveelheden door AI gegenereerde tekst efficiënt te beoordelen.
  • Strategische besluitvorming: AI-gegenereerde zakelijke of beleidsstrategieën kunnen factoren voor mensen inhouden om effectief te beoordelen.

Dit levert een ernstig toezichtsprobleem op. Als mensen geen AI-gegenereerde inhoud op betrouwbare wijze kunnen evalueren, hoe kunnen we ervoor zorgen dat AI dan veilig blijft en afgestemd op menselijke doelen?

De hypothese: AI kan zijn eigen kritiek bekritiseren

De studie onderzoekt twee belangrijke hypothesen:

  1. Kritiek op kritiek is eenvoudiger dan zelf kritiek -Dit breidt het bekende principe uit dat verificatie eenvoudiger is dan generatie. Net zoals het controleren van een antwoord vaak eenvoudiger is dan het oplossen van een probleem, is het evalueren van een kritiek vaak eenvoudiger dan het helemaal opnieuw produceren.
  2. Deze moeilijkheidsrelatie geldt recursief – Als het beoordelen van een kritiek eenvoudiger is dan het genereren van er een, moet het evalueren van een kritiek op een kritiek nog eenvoudiger zijn, enzovoort. Dit suggereert dat wanneer menselijke evaluatie onmogelijk is, AI nog steeds kan worden begeleid door Kritieken van hogere orde.

Dit spiegelt Organisatorische besluitvormingsstructurenwaar managers de evaluaties van hun ondergeschikten beoordelen in plaats van zelfcomplexe details zelf direct te beoordelen.

De theorie testen: experimenten met mensen, AI en recursieve toezicht

Om deze hypothesen te valideren, voerden de onderzoekers een reeks experimenten uit met verschillende niveaus van toezicht. Ten eerste testten ze Mens-menselijk toezichtwaar mensen werden gevraagd om door AI gegenereerde reacties te evalueren en vervolgens eerdere kritieken te bekritiseren. Dit experiment was bedoeld om te bepalen of het evalueren van een kritiek eenvoudiger was dan het beoordelen van een oorspronkelijke reactie. Vervolgens introduceerden ze Mens-ai toezichtwaarbij mensen verantwoordelijk waren voor het toezicht op AI-gegenereerde kritieken in plaats van AI-output direct te beoordelen. Deze aanpak testte of recursieve zelfkritiek nog steeds mensen in staat zou stellen om toezicht te houden op AI-beslissingen effectief. Ten slotte onderzocht de studie AI-AI-toezichtwaarbij AI-systemen hun eigen output door meerdere lagen zelfkritiek evalueerden om te beoordelen of AI zijn beslissingen autonoom zou kunnen verfijnen zonder menselijke tussenkomst.


Hoe door fysica geïnspireerde AI onze wegen veiliger maakt


Belangrijke bevindingen

De menselijke experimenten bevestigde dat het herzien van een kritiek eenvoudiger was dan het direct evalueren van een reactie. Kritieken van hogere orde leidden tot een verhoogde nauwkeurigheid en vereisen minder inspanning, waaruit blijkt dat recursief toezicht complexe evaluatietaken zou kunnen vereenvoudigen. De Human-AI-experimenten aangetoond dat zelfs in gevallen waarin AI de mensen bij het genereren van inhoud beter presteerde, mensen nog steeds zinvol toezicht zouden kunnen bieden door AI-gegenereerde kritieken te evalueren in plaats van ruwe output. Eindelijk de AI-AI-experimenten toonde aan dat hoewel AI-modellen hun eigen output konden bekritiseren, hun vermogen om recursieve zelfkritieken uit te voeren nog steeds beperkt was. Huidige AI-systemen worstelen om consequent te verbeteren door meerdere lagen zelfkritiek, wat de noodzaak benadrukt aan verdere vooruitgang in AI-afstemming.

Hoe recursief zelfkritieken werkt

De onderzoekers formaliseerden een hiërarchische kritiekstructuur waarmee AI -systemen hun eigen output via meerdere niveaus konden evalueren. Bij de Antwoordniveaude AI genereert een eerste antwoord. Dan in de Kritiek van de eerste orde (C1) Stage, AI beoordeelt zijn eigen reactie en identificeert fouten of zwakke punten. De Tweede-orde kritiek (C2) Neemt dit verder door meerdere kritiek uit de eerste orde te evalueren om te bepalen welke kritieken de meest geldige inzichten bieden. Bij de Kritiek van hogere orde (C3+) Niveau, AI blijft kritiek recursief verfijnen, waardoor de nauwkeurigheid bij elke laag van zelfevaluatie wordt verbeterd.

De studie introduceerde ook twee Baseline vergelijkingsmethoden om de effectiviteit van recursieve kritieken te beoordelen. Meerderheid stemt geaggregeerde meerdere kritieken om te zien of consensus de nauwkeurigheid verbeterde, terwijl Naïef stemmen Simpelweg geteld eerdere oordelen zonder een nieuwe analyse toe te voegen. De bevindingen toonden aan dat recursieve kritieken consequent beter presteerden dan eenvoudige stemaggregatie, waaruit bleek dat deze methode zinvolle inzichten genereert in plaats van alleen het gemiddelde van meningen.

Kan recursieve zelfkritieken AI toezicht oplossen?

Het onderzoek suggereert Recursief toezicht kan een doorbraak zijn voor schaalbare AI -monitoringmaar er blijven uitdagingen bestaan:

STrengths:

  • Hiermee kunnen mensen toezicht houden op AI zonder dat ze complexe ruwe uitgangen moeten evalueren.
  • Maakt AI -afstemming schaalbaarder door de afhankelijkheid van directe menselijke tussenkomst te verminderen.
  • Biedt gestructureerde toezichtmechanismen, vergelijkbaar met hiërarchische besluitvorming in organisaties.

Beperkingen:

  • Huidige AI -modellen worstelen met Zelfkritieken na enkele niveaus.
  • Recursief toezicht elimineert niet Het risico van beloning hacking – waar AI optimaliseert voor proxy -doelen in plaats van echte menselijke bedoelingen.
  • Verder onderzoek is nodig om ervoor te zorgen dat zelf critique modellen Versterk hun eigen vooroordelen niet in plaats van te verbeteren.

Indien verbeterd, Recursieve zelfkritiek kan AI toezicht hervormenwaardoor het mogelijk is om te controleren bovenmenselijke AI -systemen zonder directe menselijke evaluatie.

Potentiële toepassingen zijn onder meer:

  • AI-aangedreven onderzoeksvalidatie -Ervoor zorgen dat AI-gegenereerde wetenschappelijke bewijzen nauwkeurig zijn.
  • Geautomatiseerde beleidsanalyse – AI gebruiken om zakelijke of overheidsstrategieën te evalueren.
  • Geavanceerde medische AI -Controle van AI-gediagnosticeerde medische aandoeningen door meerlagige kritieken.

De bevindingen van de studie suggereren dat terwijl Huidige AI-modellen worstelen nog steeds met kritiek op hogere orde,, Recursieve zelfkritieken biedt een veelbelovende richting Voor het handhaven van AI -afstemming terwijl systemen menselijke intelligentie blijven overtreffen.


Uitgelichte afbeeldingskrediet: Kerem gülen/ideogram

Tags: AIkunstmatige intelligentieUitgelaten

Related Posts

Wetenschappers ontdekken meer dan 17.000 nieuwe soorten

Wetenschappers ontdekken meer dan 17.000 nieuwe soorten

26 december 2025
GPT-5.2 overtreft de PhD-baseline van experts met een wetenschappelijke score van 92%

GPT-5.2 overtreft de PhD-baseline van experts met een wetenschappelijke score van 92%

24 december 2025
Waarom DIG AI de gevaarlijkste kwaadaardige AI van 2025 is

Waarom DIG AI de gevaarlijkste kwaadaardige AI van 2025 is

23 december 2025
Natrium-ionbatterijen komen dichter bij snel opladen naarmate onderzoekers ionenknelpunten opsporen

Natrium-ionbatterijen komen dichter bij snel opladen naarmate onderzoekers ionenknelpunten opsporen

19 december 2025
Het spook van  biljoen vangen: AI herschrijft de regels van financiële misdaad

Het spook van $2 biljoen vangen: AI herschrijft de regels van financiële misdaad

15 december 2025
LLM’s vertonen duidelijke culturele vooroordelen in Engelse versus Chinese aanwijzingen

LLM’s vertonen duidelijke culturele vooroordelen in Engelse versus Chinese aanwijzingen

15 december 2025

Recent Posts

  • Alibaba’s Qwen Code v0.5.0 transformeert terminal in een volledig ontwikkel-ecosysteem
  • Bethesda mikt op 600 uur gameplay voor Fallout 5
  • ASUS verdedigt verkeerd uitgelijnde RTX 5090 HyperX-voedingspoort als "opzettelijk ontwerp"
  • NVIDIA open source CUDA Tile IR op GitHub
  • CEO van MicroStrategy zegt Bitcoin-fundamentals "kan niet beter"

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.