Onderzoekers van Alibaba hebben SkillWeaver ontwikkeld, een raamwerk gericht op het verbeteren van de routering van subtaken in zakelijke AI-systemen. SkillWeaver maakt uitvoeringsgrafieken voor taken en selecteert de juiste vaardigheden voor elk knooppunt. Het raamwerk omvat Skill-Aware Decomposition (SAD), een techniek die gebruik maakt van een feedbacklus voor iteratieve gereedschapsselectie, waardoor het zich onderscheidt van raamwerken die gereedschappen in één keer kiezen.
SkillWeaver is specifiek ontworpen voor echte AI-toepassingen, zoals het orkestreren van meerdere tools via het Model Context Protocol (MCP) voor verschillende bedrijfsactiviteiten, inclusief gegevensverwerking en rapportage. Uit tests blijkt dat de aanpak van SkillWeaver de nauwkeurigheid verhoogt en het tokenverbruik met meer dan 99% vermindert, vergeleken met het blootstellen van agenten aan een volledige gereedschapsbibliotheek.
De belangrijkste uitdaging waarmee AI-systemen worden geconfronteerd, is de granulariteit van de taakdecompositie, aangezien praktische vragen vaak compositorische verzoeken omvatten die meerdere vaardigheden vereisen. Vaardigheden worden gedefinieerd als modulaire, herbruikbare specificaties waarbij gebruik wordt gemaakt van gestructureerde documentatie in natuurlijke taal. De huidige AI-frameworks hebben er vaak moeite mee om toolrouting te behandelen als een selectietaak op basis van één vaardigheid, wat onvoldoende is voor complexe workflows.
De werking van SkillWeaver bestaat uit drie fasen: Decompose, Retrieve en Compose. In de fase Decompose splitst een LLM complexe gebruikersquery’s op in beheersbare subtaken. Vervolgens wordt in de Retrieve-fase een inbeddingsmodel gebruikt om kandidaat-tools voor elke subtaak uit een vaardighedenbibliotheek te identificeren. Ten slotte beoordeelt de Compose-fase de compatibiliteit van deze tools en formuleert een Directed Acyclic Graph (DAG) die het uitvoeringsplan schetst.
SkillWeaver pakt ook het probleem aan van LLM’s die generieke beschrijvingen genereren door de SAD-feedbacklus te implementeren. Dit mechanisme zorgt ervoor dat de LLM een eerste plan opstelt, de bijbehorende vaardigheden ophaalt en de ontleding ervan verfijnt op basis van de opgehaalde hulpmiddelen, waardoor afstemming op specifieke technische vocabulaires wordt gegarandeerd.
Om de effectiviteit te evalueren, hebben onderzoekers CompSkillBench gemaakt, een benchmark met 300 meerstapsquery’s op basis van 2.209 vaardigheden uit de echte wereld. De kernengine maakte gebruik van een parametermodel van 7 miljard (Qwen2.5-7B-Instruct) voor het decompositieproces en een semantische zoekretriever. Uit tests bleek dat de SAD-feedbacklus de decompositienauwkeurigheid verhoogde van 51,0% naar 67,7%, waarbij hogere modellen een nauwkeurigheid van 92% bereikten.
Uit de resultaten bleek dat minder begeleiding kan leiden tot verminderde prestaties in grotere modellen. Een standaardopstelling met een groter model presteerde slechter dan het kleinere model vanwege onnodige taakonderbrekingen. Het onderzoek toonde aan dat een goede afstemming met de woordenschat van tools vaak meer impact heeft dan simpelweg het gebruik van een groter model.
Er werden aanzienlijke tokenbesparingen genoteerd, waarbij SkillWeaver het verbruik van contextvensters terugbracht van ongeveer 884.000 tokens naar ongeveer 1.160 tokens per query, wat leidde tot lagere API-kosten en snellere responstijden. Daarentegen behaalde de LLM-Direct-methode slechts een nauwkeurigheidspercentage van 21,1% bij het ophalen van gereedschappen, terwijl agenten in ReAct-stijl een nauwkeurigheid van 0% behaalden.
Hoewel de broncode voor SkillWeaver nog niet is vrijgegeven, hebben de onderzoekers promptsjablonen geleverd die ontwikkelaars kunnen implementeren met behulp van bestaande bibliotheken zoals LangChain en LlamaIndex. Het raamwerk vereist initiële vectorisatie van de gereedschapsbibliotheek en het bouwen van een FAISS-index, die in korte tijd kan worden voltooid, waardoor de latentie tijdens het ophalen wordt geminimaliseerd.
Een beperking van SkillWeaver is het gebrek aan foutherstel in gereedschapsketens met meerdere stappen. Uit het onderzoek blijkt dat als één stap mislukt, dit de hele keten in gevaar brengt, wat de noodzaak benadrukt van verbeteringen in de foutafhandelingsmechanismen binnen het raamwerk.





