Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Bytedance Vapo: De AI -upgrade die u binnenkort over hoort

byKerem Gülen
11 april 2025
in Research
Home Research
Share on FacebookShare on Twitter

Bytedance-zaadonderzoekers uitgerold waarde Augmented Proximal Policy Optimization (VAPO), een versterkingsleertrainingskader dat is ontworpen om de redenering van grote, lange taken van grote taalmodellen te verscherpen, het behalen van nieuwe state-of-the-art resultaten op de Aime24-benchmark.

Training LLMS voor ingewikkelde redenering met behulp van op waarde gebaseerde versterking leren die eerder te maken hadden met belangrijke hindernissen. Methoden worstelden met waardemodelvooroordeel, zich effectief aanpassen aan responssequenties van sterk variërende lengtes en het beheren van schaarse beloningssignalen, vooral in op verificaties gebaseerde taken die alleen binaire feedback bieden.

Vapo gaat deze uitdagingen aan via drie kerninnovaties: een gedetailleerd op waarde gebaseerd trainingsframework, een lengte-adaptief gegeneraliseerd voordeelschatting (GAE) -mechanisme dat parameters aanpassen op basis van de responslengte en de systematische integratie van technieken van eerder onderzoek.

Deze combinatie creëert een systeem waar verbeteringen synergetisch werken. Met behulp van het QWEN2.5-32B-model Zonder specifieke SFT-gegevens verbeterde VAPO Benchmark-scores van 5 tot 60 en overtreft vorige ultramoderne methoden met 10 punten.

VAPO bouwt voort op het proximale beleidsoptimalisatie (PPO) -algoritme, maar bevat belangrijke wijzigingen om de wiskundige redenering te verbeteren. Trainingsanalyse onthulde vapo vertoont soepelere trainingscurves in vergelijking met de waardevrije DAPO-methode, wat wijst op stabielere optimalisatie.

Vapo vertoonde ook een betere lengteschaling voor verbeterde generalisatie, snellere scorgroei toe te schrijven aan de korrelige signalen uit zijn waardemodel en lagere entropie in latere trainingsfasen. Hoewel verminderde entropie mogelijk de exploratie kan beperken, evenwichtig dit effectief in evenwicht, waardoor de reproduceerbaarheid en stabiliteit worden verbeterd met minimale prestatie -impact.

bytedance-vapo-the-ai-upgrade-youll-heer-over-soon
Afbeelding: Bytedance Seed

Op de Aime24 -benchmark behaalde Deepseek R1 met behulp van GRPO 47 punten en DAPO bereikte 50 punten. Vapo, met behulp van het QWEN-32B-model, kwam overeen met de prestaties van DAPO met slechts 60% van de updatestappen en stelde een nieuwe state-of-the-art score van 60,4 in 5.000 stappen in. Vanilla PPO daarentegen scoorde slechts 5 punten vanwege het instorten van het waardemodel leren.


Deze benchmark vraagt ​​of AI kan denken als een ingenieur


Ablatiestudies bevestigden de effectiviteit van zeven verschillende modificaties in vapo. Waarde-pretraining voorkomt het instorten van het model; Gecoulpled GAE maakt volledige optimalisatie van lange reacties mogelijk; Adaptieve Gae balances korte en lange responsoptimalisatie; Clip-higher moedigt grondige verkenning aan; Het verlies van tokenniveau verhoogt de weging voor lange reacties; het opnemen van positief-voorbeeld-LM-verlies toegevoegd 6 punten; en groeps-sampling droeg 5 punten bij aan de eindscore.

Onderzoekers bescheiden Dat VAPO, met behulp van het QWEN2.5-32B-model, aantoont dat deze op waarde gebaseerde aanpak beslissend over waardevrije methoden zoals GRPO en DAPO kan presteren, een nieuw prestatieniveau op te zetten voor complexe redeneringstaken en het aanpakken van fundamentele uitdagingen in trainingsmodellen voor langdurige scenario’s.


Uitgelichte afbeeldingskrediet

Tags: Bytedancevapo

Related Posts

JWST identificeert SN Eos: de meest afgelegen supernova ooit spectroscopisch bevestigd

JWST identificeert SN Eos: de meest afgelegen supernova ooit spectroscopisch bevestigd

21 januari 2026
Miggo Security omzeilt de verdediging van Google Gemini via agenda-uitnodigingen

Miggo Security omzeilt de verdediging van Google Gemini via agenda-uitnodigingen

21 januari 2026
Forrester-analist: AI is er niet in geslaagd de mondiale productiviteit te beïnvloeden

Forrester-analist: AI is er niet in geslaagd de mondiale productiviteit te beïnvloeden

20 januari 2026
Hoe AI in slechts zeven dagen VoidLink-malware bouwde

Hoe AI in slechts zeven dagen VoidLink-malware bouwde

20 januari 2026
OpenAI GPT 5.2 lost het wiskundeprobleem van Erdő in 15 minuten op

OpenAI GPT 5.2 lost het wiskundeprobleem van Erdő in 15 minuten op

19 januari 2026
Appfiguren: De uitgaven voor mobiele apps bereiken een record van 5,8 miljard

Appfiguren: De uitgaven voor mobiele apps bereiken een record van $155,8 miljard

15 januari 2026

Recent Posts

  • JWST identificeert SN Eos: de meest afgelegen supernova ooit spectroscopisch bevestigd
  • Netflix lanceert realtime interactief stemmen voor de livepremière van Star Search
  • Snap betaalt miljoenen om rechtszaak over tienerverslaving te schikken
  • De CEO van Anthropic hekelt de VS en Nvidia over de verkoop van AI-chips aan China
  • Netflix plant een herontwerp van de mobiele app in 2026 om de dagelijkse gebruikersbetrokkenheid te vergroten

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.