U tikt op “Run” op een GPT -aangedreven assistent en kijkt vervolgens naar de spinner. Seconden strekken zich uit tot minuten, de tokenmeters klimmen en de meter op je Openai -factuur kruipt hoger. Latentie en kosten zijn de onzichtbare belasting geworden op de grote boom van het grote taalmodel, vooral wanneer een enkele stoere vraag duizenden nieuwe inferenties kan activeren. Een nieuw onderzoeksvoorstel genoemd Slaap -tijd berekenen betoogt dat die tokens vaak worden doorgebracht in de verkeerde fase van de workflow. In plaats van alle redenering te proppen in het moment dat de gebruiker binnenkomt, waarom zou je het model niet laten ‘denken’ tijdens zijn inactieve uren, de ruwe context transformeren in herbruikbaar inzicht en de factuur verslaan wanneer de echte vraag eindelijk arriveert?
Het idee voelt bekend voor iedereen die ooit een database -index heeft gepland of code voor verzending heeft gecompileerd: preprocess terwijl niemand kijkt, reageer onmiddellijk wanneer ze dat zijn. Toch het toepassen van die mentaliteit op taalmodellen vereist nieuwe benchmarks, zorgvuldige boekhouding en bewijs dat offline inspanningen overbrengen naar online nauwkeurigheid. Kevin Lin en collega’s van Letta en UC Berkeley leveren precies dat bewijs in “Slaaptime Compute: Beyond Inference Scaling op test -time”En hun cijfers suggereren een heroverweging van hoe Enterprise AI Products Budget GPU -cycli.
Traditionele test -tijdschaling vertelt een LLM om harder te werken als de vraag moeilijk is: steekproef meerdere denkketens, breid het redeneringsspoor uit, herstel antwoorden of vork tientallen kandidaat -antwoorden parallel. Die trucs vergroten de nauwkeurigheid voor wiskunde-, codering- en kennistaken, maar ze blazen ook latentie en portemonnee af. Gebruikers wachten; Verkopers betalen. Erger nog, het paradigma veronderstelt dat elke vraag een staatloze one -off is die in hetzelfde verzoek met zijn volledige context aankomt.
In de echte wereld blijven contexten bestaan. Customer -support bots herlezen dezelfde kennisbasis, coderende agenten navigeren in dezelfde repository en onderzoek copilots herzien een gedeeld document corpus. De auteurs beweren dat in deze stateful -instellingen enorme redenering over redundant worden uitgevoerd. Slaaptime Compute exploits die redundantie door het model de context tijdens inactieve vensters te laten prijzen, een gedistilleerde, conclusiesklare weergave te maken en op te slaan voor later hergebruik. Wanneer de gebruiker eindelijk vraagt, antwoordt de LLM in een fractie van de tokens omdat veel van het zware werk al in de prompt is gebakken.
Waarom slaaptijd berekeningen de kostencurve herschrijven
De onderzoekers formaliseren de workflow in twee fasen. Tijdens slaap -tijd Het model ziet alleen de context Cvoorspelt waarschijnlijke interessante hoeken en produceert een herschreven context C’ Dat bevat tussenliggende inhoudingen, gestructureerde samenvattingen of cache -ketting van gedachte fragmenten. Tijdens test -tijd de vraag van de gebruiker Q arriveert. Het model ontvangt nu C’ in plaats van de ruwe context en kan het juiste antwoord bereiken met een veel kleiner rekenbudget B. Omdat inactieve uren goedkoop en parallelliseerbaar zijn, betaalt de organisatie lage prioriteitspercentages voor de voorbewerking en behoudt de premium inferentiecapaciteit voor de reactievermogen van de gebruiker.
Om het voordeel te kwantificeren, splitste het team twee klassieke wiskunde -reviserende suites – GSM -symbolisch en aime – into Vast Varianten waarbij elk probleem wordt ontleed in een contextparagraaf en een afzonderlijke vraag. Ze hebben ook gebouwd Multi -query GSM -symbolicwaarin elke context verschillende gerelateerde vragen voortbrengt en een gebruiker nabootst die blijft porren in hetzelfde document. De evaluatiematrix vergeleek de basislijn GPT – 4O, GPT – 4O -mini, O1, O3 -mini, Claude Sonnet en DeepSeek -R1 onder drie voorwaarden: standaard test -time schaling, slaap -tijdrelatie met verschillende offline budgetten, en Pass -@@@@@@@@@k Parallelle bemonstering.
Wat de experimenten laten zien
Over elk model behalve de kleinste O1, de slaaptijdstrategie duwde de nauwkeurigheid -per -token grens naar buiten. Op Stateful GSM -symbolisch En Staatsful aime Het auteurs rapporteren:
- 5 × lager Test -time tokens om dezelfde nauwkeurigheid te bereiken als de baseline opeenvolgende keten van gedachte runs.
- 13 procent Nauwkeurigheidswinst op GSM toen het offline budget tot vijf parallelle slaap -tijd generaties schaalde.
- 18 procent Nauwkeurigheidswinst op AIME met offline redeneersporen met een hogere afstand.
- 2,5 × reductie in gemiddelde kosten per vraag toen tien gerelateerde vragen dezelfde voorbewerkte context deelden.
Misschien meer opvallend, slaaptijdreken Versla de canonieke pas-@k truc bij gelijke test -time budgetten. Doorgang-@k veronderstelt dat een orakelverifier onmiddellijk het beste kan kiezen k Proef antwoorden, een onrealistische kruk in productie. Slaap -tijdreken bereikt een hogere nauwkeurigheid zonder die luxe omdat de zware redenering al in leeft C’.
De uitbetaling is gevoelig voor hoe voorspelbaar de uiteindelijke vraag is. Wanneer de onderzoekers GSM -items door de logkans die Lama -2 aan de vraag hebben toegewezen, de nauwkeurigheid delta tussen slaap -tijd en basislijn verbreed voor het meest voorspelbare kwintiel. In gewoon Engels: hoe duidelijker de vervolgvraag, hoe groter de overwinning van het voorbereiden van uw huiswerk van tevoren.
Nummers zijn één ding; Productimplicaties zijn een andere. De auteurs voeren een echte repository -test uit met de naam Swe -features waarin een agent drie of meer bestanden moet wijzigen om een functie te implementeren. Met alleen lage test -time budgetten, slaap -tijd rekentoken -gebruik met ongeveer 50 procent tijdens het matchen van F1, wat betekent snellere fusies en lagere GPU -rekeningen op bots voor continue integratie. Bij zeer hoge budgetten herwon de klassieke test -time redenering een lichte voorsprong in precisie, wat suggereert een hybride beleid: offline berekeningen agressief toewijzen wanneer latentie ertoe doet of wanneer contexten worden hergebruikt, alleen terugvallen op rijke online ketens voor één off of zeer onvoorspelbare vragen.
Het framework opent ook deuren voor het genereren van synthetische gegevens. Als slaap -tijd redenering rijke natuurlijke weergave van een codebase of document produceert, worden die artefacten zelf trainingsgegevens voor toekomstige fijne tuning – een deugdzame lus waarbij offline denken de volgende generatie modelverbeteringen zaadt zonder meer internettekst te schrapen.
Operationeel nodigt de techniek technische vragen uit. Hoe vaak moet de contextcache vernieuwen? Hoe groot kan C’ groeien voordat het de tokenbesparingen annuleert? Welke inactieve cycli zijn echt gratis in een gedeeld cluster? Toch ziet geen van deze hindernissen er net zo formidabel uit als de huidige realiteit van het betalen van realtime prijzen voor overbodige redenering. Ondernemingen die al nachtelijke bouwt, builds, zoek -index crawls of gematerialiseerde weergaven hebben mentale modellen voor deze optimalisatie.
Hoe LLMS stilletjes de ultieme stadshistorici wordt
Waar offline denken daarna past
Slaap -tijdreken is geen zilveren kogel. Vragen die blind het systeem of contexten die te snel muteren, blind zijn, zullen nog steeds nieuwe denkketens eisen. De paper zelf markeert open onderzoek naar adaptief beleid dat voorspelt wanneer offline investeringen zijn vruchten zullen afwerpen, misschien door contexttropie of gebruikersintentiedistributie te schatten. Toch staat de kernafhankelijkheid: grote taalmodellen hoeven niet alleen na te denken wanneer de gebruiker kijkt. Door een leeftijdsgebonden computertruc te lenen – het werk van morgen vanavond – kunnen de ontwikkelaars latentie verlagen, rekeningen krimpen en nog steeds de nauwkeurigheidsladder beklimmen.
Het resultaat: Uw volgende LLM -functie vereist mogelijk geen groter model of een dieper redeneerbudget. Het kan misschien gewoon vereisen dat het model eerst op het probleem slaapt.