Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Nieuw stresstestkader onthult fouten in geavanceerde AI-redenering

byKerem Gülen
29 juli 2025
in Onderzoek
Home Onderzoek
Share on FacebookShare on Twitter
Google Preferred Source

Terwijl geavanceerde AI -systemen bekend staan als Grote redeneermodellen (LRMS) hebben indrukwekkende prestaties aangetoond over complexe probleemoplossende benchmarks, hun echte redeneermogelijkheden kunnen worden overschat door huidige evaluatiemethoden. Volgens een recent artikel van Sajjad Ansari blijkt uit een nieuw multi-problemen stress-tests framework dat zelfs state-of-the-art modellen worstelen onder meer realistische omstandigheden.

Het framework, gedetailleerd in het artikel Rust: een stresstestkader voor het evalueren van multi-problem-redenering in grote redeneermodellenwerd ontwikkeld door onderzoekers van de Tsinghua University, OpenDatalab, Shanghai AI Laboratory en Renmin University om kritische hiaten aan te pakken in hoe deze geavanceerde modellen worden getest.

Waarom single-question-tests verouderd raken

De meeste huidige benchmarks die worden gebruikt om LRM’s te evalueren, zoals GSM8K en MATH, beoordelen modellen door één vraag tegelijk te stellen. Deze benadering heeft twee belangrijke nadelen die de effectiviteit ervan beperken voor het meten van het werkelijke redeneervermogen. Ten eerste neemt de discriminerende kracht van deze benchmarks af naarmate topmodellen bijna perfecte scores bereiken, waardoor het moeilijk is om zinvolle verbeteringen daartussen te onderscheiden. Sommige modellen bereiken nu bijvoorbeeld 97% Nauwkeurigheid op benchmarks zoals Math500, een niveau van verzadiging dat de dure creatie van steeds harder datasets dwingt.

Ten tweede weerspiegelt het testen van eenmalige vragen niet in real-world scenario’s waarbij AI-systemen tegelijkertijd meerdere, mogelijk interfererende problemen moeten redeneren. Toepassingen zoals technische ondersteuning, educatieve begeleiding of multitasking AI -assistenten vereisen dynamisch cognitief lading management, een vaardigheid die geïsoleerde tests niet kunnen meten. Om dit aan te pakken, ontwikkelden de onderzoekers REST (redeneringsevaluatie door middel van gelijktijdige testen), een methode die meerdere vragen bundelt van bestaande benchmarks in een enkele prompt om de eisen van de praktijk beter te simuleren.


De grote paradox van AI Trust daalt als de waarde ervan stijgt


Belangrijke bevindingen van multi-problemen stress-tests

Door het restraamwerk toe te passen op 34 Geavanceerde LRMS, onderzoekers hebben verschillende baanbrekende inzichten aan het licht gebracht in hun ware mogelijkheden. De evaluatie, uitgevoerd op 7 Diverse benchmarks, onthulden dat de prestaties aanzienlijk afbreken wanneer modellen worden gedwongen om meerdere problemen tegelijkertijd aan te pakken.

  • Significante prestatieafbraak: Zelfs best presterende modellen zoals DeepSeek-R1 vertoonden een opmerkelijke nauwkeurigheid daling van de troef bij het getest met rust. Op uitdagende benchmarks zoals Aime24 daalde de nauwkeurigheid van het model met bijna 30% Vergeleken met de prestaties in geïsoleerde vragentests.
  • Verbeterde discriminerende kracht: REST versterkte dramatisch de prestatieverschillen tussen modellen die vergelijkbaar leken in tests met één vragen. Op de MATH500 -benchmark, twee modellen met nauwe initiële scores van 93% En 94,6% toonde een enorm 22% prestatiekloof onder rust, met hun nauwkeurigheid aan 66,75% En 88,97%respectievelijk.
  • Inzicht op trainingsmethode: Uit de studie bleek dat modellen die zijn afgestemd met veel voorkomende methoden zoals versterkingsleren bij taken met één probleem vaak niet in een multi-problem-setting handhaven. Modellen getraind met “Long2Short” -technieken, die een beknopere en efficiënte redenering aanmoedigen, handhaafden echter een hogere nauwkeurigheid onder stress, wat een veelbelovende richting voor toekomstige ontwikkeling suggereert.

Het rest framework simuleert een high cognitieve belastinghet dwingen van modellen om middelen dynamisch toe te wijzen, interferentie te weerstaan door gelijktijdige taken en te voorkomen dat een enkel probleem wordt over nagedacht. Deze methode zorgt ook voor een meer genuanceerde analyse van fouten die onzichtbaar zijn in tests met één vragen, zoals vragen omzetting, waarbij een model latere vragen negeert in een snelle en samenvattende fouten, waar het antwoorden van meerdere problemen ten onrechte synthetiseert. Door bestaande datasets nieuw leven in te blazen en de eisen van de praktijk te reflecteren, biedt het framework een betrouwbaarder en toekomstbestendig paradigma voor het evalueren van de redenering van de volgende generatie AI-systemen.

Tags: llmLRM

Related Posts

Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten

Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten

3 juni 2026
Uit peilingen blijkt dat 71% van de Amerikanen vindt dat AI te snel evolueert

Uit peilingen blijkt dat 71% van de Amerikanen vindt dat AI te snel evolueert

20 mei 2026
Gestolen Britse betaalkaarten worden op het dark web voor $ 12 verkocht, constateert NordVPN

Gestolen Britse betaalkaarten worden op het dark web voor $ 12 verkocht, constateert NordVPN

20 mei 2026
Datacenters en cryptovaluta kunnen de energiekosten tegen 2030 met 57% verhogen

Datacenters en cryptovaluta kunnen de energiekosten tegen 2030 met 57% verhogen

20 mei 2026
AI-vaardigheden zijn nu van cruciaal belang voor promoties en salarisverhogingen, zo blijkt uit onderzoek

AI-vaardigheden zijn nu van cruciaal belang voor promoties en salarisverhogingen, zo blijkt uit onderzoek

20 mei 2026
Een nieuw magnetisch chipontwerp zou beter kunnen presteren dan de huidige AI-versnellers

Een nieuw magnetisch chipontwerp zou beter kunnen presteren dan de huidige AI-versnellers

19 mei 2026

Recent Posts

  • De opt-outregels voor Google AI-zoekopdrachten zorgen voor de lancering van de Enviromates-browser
  • Sony onthult God of War: Laufey voor PS5
  • Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten
  • Microsoft onthult Surface RTX Spark Dev Box voor AI-workloads
  • Intel’s nieuwe Core Ultra-chips zijn naar verluidt schaars

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.