De opkomst van grote taalmodellen (LLMS) is ronduit transformerend geweest. Deze AI -systemen blinken uit in complexe redenering, waardoor problemen worden afgebroken in gestructureerde, logische stappen die bekend staan als REDENING VAN DAAD (COT) REDEN. Terwijl AI -onderzoek echter aandringt op efficiëntie, komt er echter een belangrijke vraag naar voren: Kunnen kleinere modellen deze geavanceerde redeneermogelijkheden erven door destillatie van grotere modellen?
Een nieuw studie Door Yuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanianian en Radha Pooovendran van de Universiteit van Washington, Carnegie Mellon University en Western Washington University is meer gecompliceerd dan eerder gedacht. In de studie genaamd “Kleine modellen worstelen om te leren van sterke redeners‘De onderzoekers hebben geïdentificeerd wat ze de Klein model Leerbaarheid Gap—Een fenomeen waarbij kleine modellen (≤3b parameters) moeite hebben om te profiteren van de ingewikkelde redenering van hun grotere tegenhangers. In plaats daarvan presteren deze modellen beter wanneer getraind op kortere, eenvoudigere redeneerstappen of gedistilleerd van andere Kleine modellen.
Deze bevinding daagt de conventionele overtuiging uit groter is altijd beter Als het gaat om AI -kennisoverdracht. De studie stelt ook een Nieuwe benadering van AI -destillatie—Een die de redeneercomplexiteit combineert om kleinere modellen te helpen effectiever te leren.
Waarom kleine AI -modellen worstelen met complexe redenering
Llms like GPT-4O, Claude 3 Opus en Gemini worden getraind op massale datasets en geoptimaliseerd om ingewikkelde redeneerketens te verwerken. Hun stapsgewijze verklaringen verbeteren de probleemoplossende nauwkeurigheid in velden zoals Wiskunde, logische inferentie en gestructureerde besluitvorming.
Natuurlijk hebben AI -onderzoekers geprobeerd “krimpen” Deze intelligentie in kleinere modellen-met het afstellen van output van grotere modellen. Het idee is eenvoudig: train een kleiner model op lange, gedetailleerde redeneersporen Gegenereerd door een grotere AI, in de hoop dat het dezelfde gestructureerde logica zal absorberen.
Maar de studie vindt deze aanpak Vaak is averechts.
- Kleine modellen kunnen lange redeneerstappen niet internaliseren: Wanneer getraind op Lange en ingewikkelde verklaringenkleinere modellen worstelen om te generaliseren, wat leidt tot prestatiedruppels.
- Ze leren beter van eenvoudiger redeneerketens: Training kleine modellen op kortere, meer beknopte redeneerreeksen verbetert hun vermogen om logische stappen te verwerken.
- Groter is niet altijd beter om AI te onderwijzen: Grote door het model gegenereerde redeneerketens verbeteren de redenering van kleinere modellen niet altijd-soms belemmeren ze het.
Dit effect is vooral duidelijk in wiskunde-gerelateerde takenwaar gestructureerde probleemoplossing een cruciale rol speelt. Het onderzoeksteam evalueerde kleine modellen in verschillende benchmarks, waaronder Math, GSM8K, AIME, AMC en Olympiadbenchhet vinden van die complexe redeneer destillatie leidde vaak tot verminderde prestaties.
De oplossing: mix destillatie
Om dit aan te pakken Bottleneck lerende onderzoekers stellen een Meng destillatie benadering. In plaats van uitsluitend kleine modellen op te trainen op lange wiegreeksen of te destilleren van grote modellen, deze methode Betekent de redeneercomplexiteit door meerdere redeneerstijlen te combineren.
Hun strategie bestaat uit twee configuraties:
- Mixlong: Een combinatie van Korte en lang redeneerketenservoor zorgen dat kleine modellen worden blootgesteld aan zowel gedetailleerde als vereenvoudigde logica.
- Mix: Een mix van redeneerstappen vanaf Grote en kleine modellenhet optimaliseren van kennisoverdracht zonder de kleinere modellen te overweldigen.
Experimenten tonen dat aan Mix -destillatie verbetert de redenering van het klein model aanzienlijk Vergeleken met training over gegevens met één bron.
Bijvoorbeeld:
- Qwen2.5-3b-instructie verbeterd door 8+ punten op wiskunde- en AMC -benchmarks met behulp van Mixlongvergeleken met training over alleen lange COT -gegevens.
- Hetzelfde model werd verkregen 7+ punten gebruik Mixvergeleken met directe destillatie van een groot lerarenmodel.
De afhaalmaaltijden? Kleine modellen hoeven geen grote modellen letterlijk te imiteren – ze hebben een zorgvuldig samengestelde mix van redeneercomplexiteit nodig.
Uitgelichte afbeeldingskrediet: Kerem gülen/midjourney