Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Waarom het gooien van meer AI -reken bij verificatie een vergissing kan zijn

byKerem Gülen
11 april 2025
in Onderzoek
Home Onderzoek
Share on FacebookShare on Twitter
Google Preferred Source

Grote taalmodellen (LLMS) beter laten redeneren is één ding. Het is een ander om ze te laten doen zonder absurde hoeveelheden reken te branden. Een nieuw onderzoeksdocument van Tu Darmstadt, UCLA, Google DeepMind en Mila graaft diep in deze afweging-en kan gewoon veranderen hoe AI-ontwikkelaars denken aan het schalen van redeneren tijdens testtijd.

De kernspanning? Of LLMS hun reken zou moeten besteden aan het genereren van meer antwoorden (wat bekend staat als zelfconsistentie, of SC), of een paar veelbelovende antwoorden verifiëren met behulp van generatieve beloningsmodellen (genrms). Blijkt dat het verkiezen van uw model tot 128 keer meer berekent – voor een nauwelijks merkbare prestatiebump.

De nieuwe redenering van redeneren op schaal

LLM’s zoals GPT-4, Lama of Qwen zijn schokkend goed geworden in het oplossen van wiskunde- en wetenschapsproblemen door meerdere denkketens (COTS) te genereren en het meest voorkomende resultaat te kiezen. Dat is het idee achter Sc – brute kracht wijsheid van de menigte. Maar onderzoekers zijn ook enthousiast geweest door genrms, een nieuwere aanpak waarmee LLMS zich als hun eigen rechter laat gedragen door antwoorden te verifiëren door verdere redenering van de ketting van gedachte.

Eerdere vergelijkingen maakten genrm er wild efficiënt uit: de nauwkeurigheid van SC met 4 × minder oplossingen. Maar dit artikel noemt dat omlijsting – moeilijk. Waarom? Omdat niemand de echte rekenkosten van al die verificatiestappen telde.

Berekenen budgetten veranderen alles

Deze studie introduceert een schoon kader voor het meten van de reële kosten van SC- en genrm -benaderingen onder een vast rekenbudget. Het werkt als volgt: u kunt ofwel op reken gelden om meer antwoorden (SC) te genereren, of dat budget opsplitsen tussen enkele antwoorden en veel verificaties (genrm). Hun model voor het berekenen van de totale gevolgtrekking is verfrissend eenvoudig: C (S, V) = S (1 + λv), waarbij S het aantal oplossingen is, v Het aantal verificaties, en λ weerspiegelt de verificatielengte ten opzichte van oplossingen.

Het brute resultaat: SC is nog steeds koning (tenzij je rijk bent)

De experimenten lieten weinig twijfel over. Overal Lama en Qwen -modellen, van 7B tot 70b parameters, en over de redeneringstaken van wiskunde en wetenschap, herhaalde het verhaal: SC beter dan genoteerd bij lagere rekenbudgetten. Pas toen Compute werd geschaald na 8 ×, heeft Genrm gehakt. En het krijgen van een bescheiden prestatieboost van 3,8% over SC vereiste een oog-waterige 128 × meer berekening.

Dat resultaat hield zelfs op voor geavanceerde “denkmodellen” zoals QWQ-32B en op Hard Math-gegevenssets zoals AIME24. SC wint wanneer de berekening strak is. GenRM is alleen zinvol wanneer het reken vrijwel vrij is – of wanneer de problemen zo moeilijk zijn dat verificatie dramatisch loont.


IEA waarschuwt: AI zou tegen 2030 het wereldwijde energieverbruik van datacenter kunnen verdubbelen tegen 2030


De slimme manier om genrm te gebruiken (als je moet)

Toch verwerpt de studie genrm niet volledig. Het is in feite afgeleid Inferentieschalingwetten voor genrm-een blauwdruk voor het oplossen van rekenoptimale probleemoplossing. De belangrijkste bevinding? Tijdens het schalen van genrm, wijs de reken toe aan het sneller genereren van oplossingen dan verificaties – ongeveer 1,5 tot 2 keer sneller. In aantallen vonden hun schaalwetten optimale oplossingstelling schalen met rekenbudget als S ∝ C^0,57, terwijl optimale verificaties schaal als V ∝ C^0,39.

Dit onderzoek laat beoefenaars achter met een zeer praktische gids: als de berekening beperkt is, vertrouwt u SC en besteedt u het aan het genereren van meer oplossingen. Als de reken overvloedig is, en vooral als u te maken hebt met hardere redeneringstaken, is het gebruik van genrm met de juiste schaalbalans de moeite waard – maar alleen met een ernstige optimalisatie.

Voor AI-ontwikkelaars die geconfronteerd worden met real-world beperkingen, is de afhaalmaaltijden bijna komisch eenvoudig: meer denken verslaat meer verifiëren, tenzij je bijna oneindige bronnen hebt. En zelfs dan moet verifiëren slim, efficiënt en minimaal zijn.

Het volledige papier, “Wanneer op te lossen, wanneer te verifiëren: Compute-optimale probleemoplossing en generatieve verificatie voor LLM-redenering“Is beschikbaar op arxiv. Hun codebase is open op Gitub.


Uitgelichte afbeeldingskrediet

Tags: AILLM's

Related Posts

Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten

Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten

3 juni 2026
Uit peilingen blijkt dat 71% van de Amerikanen vindt dat AI te snel evolueert

Uit peilingen blijkt dat 71% van de Amerikanen vindt dat AI te snel evolueert

20 mei 2026
Gestolen Britse betaalkaarten worden op het dark web voor $ 12 verkocht, constateert NordVPN

Gestolen Britse betaalkaarten worden op het dark web voor $ 12 verkocht, constateert NordVPN

20 mei 2026
Datacenters en cryptovaluta kunnen de energiekosten tegen 2030 met 57% verhogen

Datacenters en cryptovaluta kunnen de energiekosten tegen 2030 met 57% verhogen

20 mei 2026
AI-vaardigheden zijn nu van cruciaal belang voor promoties en salarisverhogingen, zo blijkt uit onderzoek

AI-vaardigheden zijn nu van cruciaal belang voor promoties en salarisverhogingen, zo blijkt uit onderzoek

20 mei 2026
Een nieuw magnetisch chipontwerp zou beter kunnen presteren dan de huidige AI-versnellers

Een nieuw magnetisch chipontwerp zou beter kunnen presteren dan de huidige AI-versnellers

19 mei 2026

Recent Posts

  • De opt-outregels voor Google AI-zoekopdrachten zorgen voor de lancering van de Enviromates-browser
  • Sony onthult God of War: Laufey voor PS5
  • Onderzoekers ontdekken een twintigvoudige verbetering in ultrasnelle laserexperimenten
  • Microsoft onthult Surface RTX Spark Dev Box voor AI-workloads
  • Intel’s nieuwe Core Ultra-chips zijn naar verluidt schaars

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.