Grote taalmodellen (LLMS) beter laten redeneren is één ding. Het is een ander om ze te laten doen zonder absurde hoeveelheden reken te branden. Een nieuw onderzoeksdocument van Tu Darmstadt, UCLA, Google DeepMind en Mila graaft diep in deze afweging-en kan gewoon veranderen hoe AI-ontwikkelaars denken aan het schalen van redeneren tijdens testtijd.
De kernspanning? Of LLMS hun reken zou moeten besteden aan het genereren van meer antwoorden (wat bekend staat als zelfconsistentie, of SC), of een paar veelbelovende antwoorden verifiëren met behulp van generatieve beloningsmodellen (genrms). Blijkt dat het verkiezen van uw model tot 128 keer meer berekent – voor een nauwelijks merkbare prestatiebump.
De nieuwe redenering van redeneren op schaal
LLM’s zoals GPT-4, Lama of Qwen zijn schokkend goed geworden in het oplossen van wiskunde- en wetenschapsproblemen door meerdere denkketens (COTS) te genereren en het meest voorkomende resultaat te kiezen. Dat is het idee achter Sc – brute kracht wijsheid van de menigte. Maar onderzoekers zijn ook enthousiast geweest door genrms, een nieuwere aanpak waarmee LLMS zich als hun eigen rechter laat gedragen door antwoorden te verifiëren door verdere redenering van de ketting van gedachte.
Eerdere vergelijkingen maakten genrm er wild efficiënt uit: de nauwkeurigheid van SC met 4 × minder oplossingen. Maar dit artikel noemt dat omlijsting – moeilijk. Waarom? Omdat niemand de echte rekenkosten van al die verificatiestappen telde.
Berekenen budgetten veranderen alles
Deze studie introduceert een schoon kader voor het meten van de reële kosten van SC- en genrm -benaderingen onder een vast rekenbudget. Het werkt als volgt: u kunt ofwel op reken gelden om meer antwoorden (SC) te genereren, of dat budget opsplitsen tussen enkele antwoorden en veel verificaties (genrm). Hun model voor het berekenen van de totale gevolgtrekking is verfrissend eenvoudig: C (S, V) = S (1 + λv), waarbij S het aantal oplossingen is, v Het aantal verificaties, en λ weerspiegelt de verificatielengte ten opzichte van oplossingen.
Het brute resultaat: SC is nog steeds koning (tenzij je rijk bent)
De experimenten lieten weinig twijfel over. Overal Lama en Qwen -modellen, van 7B tot 70b parameters, en over de redeneringstaken van wiskunde en wetenschap, herhaalde het verhaal: SC beter dan genoteerd bij lagere rekenbudgetten. Pas toen Compute werd geschaald na 8 ×, heeft Genrm gehakt. En het krijgen van een bescheiden prestatieboost van 3,8% over SC vereiste een oog-waterige 128 × meer berekening.
Dat resultaat hield zelfs op voor geavanceerde “denkmodellen” zoals QWQ-32B en op Hard Math-gegevenssets zoals AIME24. SC wint wanneer de berekening strak is. GenRM is alleen zinvol wanneer het reken vrijwel vrij is – of wanneer de problemen zo moeilijk zijn dat verificatie dramatisch loont.
De slimme manier om genrm te gebruiken (als je moet)
Toch verwerpt de studie genrm niet volledig. Het is in feite afgeleid Inferentieschalingwetten voor genrm-een blauwdruk voor het oplossen van rekenoptimale probleemoplossing. De belangrijkste bevinding? Tijdens het schalen van genrm, wijs de reken toe aan het sneller genereren van oplossingen dan verificaties – ongeveer 1,5 tot 2 keer sneller. In aantallen vonden hun schaalwetten optimale oplossingstelling schalen met rekenbudget als S ∝ C^0,57, terwijl optimale verificaties schaal als V ∝ C^0,39.
Dit onderzoek laat beoefenaars achter met een zeer praktische gids: als de berekening beperkt is, vertrouwt u SC en besteedt u het aan het genereren van meer oplossingen. Als de reken overvloedig is, en vooral als u te maken hebt met hardere redeneringstaken, is het gebruik van genrm met de juiste schaalbalans de moeite waard – maar alleen met een ernstige optimalisatie.
Voor AI-ontwikkelaars die geconfronteerd worden met real-world beperkingen, is de afhaalmaaltijden bijna komisch eenvoudig: meer denken verslaat meer verifiëren, tenzij je bijna oneindige bronnen hebt. En zelfs dan moet verifiëren slim, efficiënt en minimaal zijn.
Het volledige papier, “Wanneer op te lossen, wanneer te verifiëren: Compute-optimale probleemoplossing en generatieve verificatie voor LLM-redenering“Is beschikbaar op arxiv. Hun codebase is open op Gitub.