Grote taalmodellen (LLMS) hebben de manier waarop AI redeneerproblemen aanpakt, getransformeerd van het beantwoorden van lastige wiskundevragen tot het begrijpen van dubbelzinnige menselijke taal. Maar er is een vangst – deze modellen worstelen vaak wanneer de redenering te complex wordt. Een enkele AI kan vast komen te zitten in lokale beslissingsvallen en mist betere oplossingen, simpelweg omdat het niet weet wat het niet weet.
Een team van onderzoekers van de Chinese Universiteit van Hong Kong en Shanghai AI Laboratory, geleid door Sen Yang, Yafu Li, Wai Lam en Yu Cheng, stellen een oplossing voor: Mengsel-of-search-agenten (MOSA). Met deze methode kunnen meerdere AI -modellen samenwerken, waardoor hun gecombineerde sterke punten worden gebruikt om complexe redeneringsproblemen te navigeren. In plaats van te vertrouwen op het perspectief van slechts één model, stelt Mosa verschillende AI -agenten in staat om verschillende redeneerpaden te verkennen en elkaars antwoorden te verfijnen.
Hun bevindingen, gepresenteerd in de studie “Multi-llm collaboratieve zoektocht naar complexe probleemoplossing‘Laat zien dat deze aanpak de AI -nauwkeurigheid in wiskunde- en commonsense redeneringstaken aanzienlijk verbetert.
Waarom worstelen AI -modellen met complexe redenering?
In de kern houdt redeneren in dat een probleem in kleinere stappen wordt verbroken en verschillende paden moet verkennen om de beste oplossing te vinden. Traditionele op zoek gebaseerde benaderingen, zoals Breadth-First Search (BFS) of Diepte-eerste zoekopdracht (DFS)help AI systematisch door deze paden te navigeren. Maar zelfs met geavanceerde technieken zoals REDENING VAN DAAD (COT) REDENwaar modellen stap voor stap hun denkproces afbreken, kan een enkele LLM nog steeds beperkingen tegenkomen:
- Beperkte verkenning: AI -modellen komen meestal vast te zitten in bekende redeneringspatronen, waardoor alternatieve oplossingen niet worden verkend.
- Ambiguïteit in taal: Natuurlijke taal is inherent vaag, waardoor het voor een AI moeilijk is om alle mogelijke interpretaties correct te evalueren.
- Afweging tussen diversiteit en nauwkeurigheid: Het aanpassen van de temperatuur van een AI (hoe willekeurig het genereert antwoorden) helpt bij het introduceren van variëteit, maar het komt vaak ten koste van precisie.
Mosa wil deze problemen oplossen door meerdere AI -modellen samen te stellen om samen te werken aan redeneringstaken, waardoor bredere verkenning wordt gewaarborgd met behoud van de nauwkeurigheid.
Hoe werkt moza?
Mosa bouwt voort op een bekende zoektechniek die wordt genoemd Monte Carlo Tree Search (MCTS)vaak gebruikt in AI-spel-spelstrategieën. In een typische MCTS-opstelling onderzoekt een AI verschillende mogelijke bewegingen en leert hij uit eerdere resultaten om de besluitvorming te verbeteren. MOSA verbetert dit proces door meerdere LLM’s in de zoekopdracht te integreren, elk fungeren als een onafhankelijke redeneeragent.
Dit is hoe Mosa de samenwerking orkestreert:
- Diverse zoekopdracht verkenning: Elke AI -agent stelt verschillende mogelijke redeneerpaden voor, waardoor de diversiteit van de zoekrichtingen wordt vergroot.
- Stapsgewijze verfijning: AI -agenten analyseren en verfijnen elkaars redeneerstappen, waardoor fouten worden verminderd.
- Geaggregeerde besluitvorming: In plaats van te vertrouwen op de output van een enkele AI, verzamelt MOSA de beste bijdragen van meerdere modellen, waardoor betrouwbaardere conclusies worden gewaarborgd.
Door meerdere modellen te gebruiken met verschillende trainingsgegevens en sterke punten, voorkomt MOSA dat een enkele AI het besluitvormingsproces domineert, waardoor lokale optimalisatievallen worden vermeden.
Hoe Mosa single AI -modellen verslaat
Om de effectiviteit van Mosa te testen, voerden de onderzoekers experimenten uit in vier bekende redeneringsbenchmarks:
- GSM8K (Math Word Problemen op de leerschool)
- Svamp (Wiskunde -redenering met variatie in taalstructuren)
- MATH-500 (Een uitdagende gegevensset voor geavanceerde wiskundige problemen)
- Strategyqa (Commonsense redeneervragen)
De resultaten waren duidelijk: Moza presteerde consequent beter dan zowel AI-modellen met één agent als bestaande multi-agent baselines.
- In MATH-500een van de moeilijkste datasets, Mosa verbeterde nauwkeurigheid door 1,8% over eerdere beste methoden.
- Bij het integreren van meerdere LLMS toonde Mosa een 1,71% verbetering In de algehele redeneringsnauwkeurigheid in vergelijking met traditionele zoekopdracht met één model.
- Hoe diverser het AI -team, hoe beter de resultaten – het toevoegen van meer LLM’s de prestaties verder verhoogden.
Het onderzoek benadrukt een belangrijke trend: AI -samenwerking is vaak effectiever dan AI -concurrentie. Net zoals mensen in teams werken om complexe problemen op te lossen, kunnen AI -modellen elkaars sterke punten aanvullen wanneer ze samenwerken. Dit heeft diepgaande gevolgen voor velden die diep redeneren vereisen, waaronder:
- Geautomatiseerde wetenschappelijke ontdekking: AI -samenwerkingen kunnen doorbraken in materialenwetenschappen, drugsontdekking en natuurkunde versnellen.
- Geavanceerde tutorsystemen: Moza-achtige benaderingen kunnen AI-aangedreven leerassistenten nauwkeuriger en nuttiger maken.
- Juridische en financiële analyse: Multi-agent AI zou contractanalyse, financiële voorspelling en risicobeoordeling kunnen verbeteren door redeneerpaden te controleren.
Kan AI verdedigen tegen zijn eigen fouten?
Een van de meest veelbelovende aspecten van Mosa is het vermogen om fouten te vangen en te corrigeren. Enkele AI -modellen genereren vaak vol vertrouwen fouten, waardoor ze moeilijk te detecteren zijn. Maar met meerdere AI -agenten die elkaars werk beoordelen, worden fouten minder kans om onopgemerkt te blijven. Het onderzoeksteam introduceerde ook een neurale aggregatoreen AI -functie die de beste aspecten van verschillende redeneerpaden samenvoegt in een meer verfijnd definitief antwoord.
Uitgelichte afbeeldingskrediet: Anderson Rian/Unsplash