Microsoft-onderzoek uitgegeven Fara-7B, een agentisch kleintaalmodel met 7 miljard parameters voor computergebruik, dat taken lokaal kan uitvoeren vanaf schermafbeeldingen. Fara-7B functioneert als een Computer Use Agent met een open gewicht en voorspelt muis- en toetsenbordacties rechtstreeks op basis van schermafbeeldingen. Het compacte formaat maakt uitvoering op één gebruikersapparaat mogelijk, waardoor de latentie wordt verminderd en de browsegegevens lokaal worden bewaard. In tegenstelling tot conventionele tekstgenererende chat-georiënteerde Large Language Models (LLM’s), besturen Computer Use Agents zoals Fara-7B de browser- of desktopinterfaces om taken uit te voeren zoals het invullen van formulieren, het boeken van reizen of het vergelijken van prijzen. Ze interpreteren het scherm, analyseren pagina-indelingen en produceren vervolgens acties op laag niveau, waaronder klikken, scrollen, typen, webzoekopdrachten of URL-bezoeken. Veel huidige systemen maken gebruik van grote multimodale modellen, geïntegreerd met complexe steigers die toegankelijkheidsbomen analyseren en verschillende tools coördineren. Dit verhoogt de latentie en vereist vaak implementatie op de server. Fara-7B condenseert de functionaliteit van dergelijke multi-agentsystemen in één enkel multimodaal decodermodel, gebouwd op Qwen2.5-VL-7B. Het verwerkt browserscreenshots en tekstcontext en genereert vervolgens gedachtetekst gevolgd door een toolaanroep met geaarde argumenten, zoals coördinaten, tekst of URL’s. De belangrijkste beperking voor computergebruiksagenten betreft gegevens, aangezien hoogwaardige logboeken van menselijke webinteracties in meerdere stappen schaars en duur zijn om te verkrijgen. Het Fara-project introduceert FaraGen, een synthetische data-engine die webtrajecten op live sites genereert en filtert. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/fara_xbox_multi_turn-3.mp4
Video: Microsoft
FaraGen maakt gebruik van een drietrapspijplijn. Taakvoorstel begint met zaad-URL’s van openbare corpora zoals ClueWeb22 en Tranco, onderverdeeld in domeinen zoals e-commerce, reizen, entertainment of forums. Grote taalmodellen zetten elke URL om in realistische gebruikerstaken, bijvoorbeeld het boeken van specifieke bioscoopkaartjes of het maken van een boodschappenlijstje met beoordelings- en materiële beperkingen. Taken moeten haalbaar zijn zonder login of betaalmuur, volledig gespecificeerd, nuttig en automatisch verifieerbaar.
Taak oplossen maakt gebruik van een multi-agent systeem gebaseerd op Magentic-One en Magentic-UI. Een Orchestrator-agent plant een strategie op hoog niveau en onderhoudt de taakstatus. Een WebSurfer-agent ontvangt toegankelijkheidsbomen en Set-of-Marks-screenshots en voert vervolgens browseracties uit via Playwright, waaronder klikken, typen, scrollen, visit_url of web_search. Een UserSimulator-agent biedt vervolginstructies voor taken die verduidelijking vereisen.
Trajectverificatie maakt gebruik van drie op LLM gebaseerde verificateurs. Een Alignment Verifier controleert of acties en definitieve antwoorden aansluiten bij de taakintentie. Een Rubric Verifier genereert een rubriek met subdoelen en scoort gedeeltelijke voltooiing. Een Multimodal Verifier inspecteert screenshots en het uiteindelijke antwoord om hallucinaties te detecteren en te bevestigen dat zichtbaar bewijs succes ondersteunt. Deze verificateurs tonen overeenstemming aan met menselijke labels erop 83,3 procent van de gevallen, met gerapporteerde fout-positieve en fout-negatieve percentages van ongeveer 17 tot 18 procent. Na filtering produceert FaraGen 145.603 trajecten met 1.010.797 stappen over 70.117 unieke domeinen. Trajecten variëren van 3 tot 84 stappen, gemiddeld 6,9 stappen en ongeveer 0,5 unieke domeinen per traject, wat aangeeft dat bij taken vaak sites betrokken zijn die elders in de dataset niet aanwezig zijn. Het genereren van gegevens met premiummodellen zoals GPT-5 en o3 kost ongeveer $ 1 per geverifieerd traject. Fara-7B is een multimodaal decoder-model dat Qwen2.5-VL-7B als basis gebruikt. Het verwerkt een gebruikersdoel, huidige browserscreenshots en de volledige geschiedenis van eerdere gedachten en acties. Het contextvenster ondersteunt 128.000 tokens. Bij elke stap genereert het model eerst een gedachtegang waarin de huidige staat en het huidige plan gedetailleerd worden beschreven, en voert vervolgens een toolcall uit waarin de volgende actie en de bijbehorende argumenten worden gespecificeerd. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/driving_directions_cheese-1_revised.mp4
Video: Microsoft
De toolruimte is afgestemd op de Magentic-UI computer_use-interface en omvat sleutel, type, muis_verplaatsing, linker_klik, scrollen, visit_url, web_search, history_back, pauze_and_memorize_fact, wait en beëindigen. Coördinaten worden direct voorspeld als pixelposities op de schermafbeelding, waardoor het model kan werken zonder toegang tot de toegankelijkheidsboom tijdens gevolgtrekking. De training omvatte een begeleide afstemming van ongeveer 1,8 miljoen monsterswaarbij meerdere gegevensbronnen worden gecombineerd. Deze omvatten FaraGen-trajecten die zijn opgesplitst in stappen van observeren, denken en handelen, aardings- en UI-lokalisatietaken, op screenshots gebaseerde visuele vraagbeantwoording en ondertiteling, en datasets over veiligheid en weigering. Microsoft heeft evaluaties van Fara-7B uitgevoerd in vier live webbenchmarks: WebVoyager, Online-Mind2Web, DeepShop en de nieuwe WebTailBench. WebTailBench richt zich op ondervertegenwoordigde segmenten zoals restaurantreserveringen, sollicitaties, zoeken naar onroerend goed, vergelijkend winkelen en compositietaken op meerdere locaties. Op deze benchmarks behaalde Fara-7B 73,5 procent succes op WebVoyager, 34,1 procent op Online-Mind2Web, 26,2 procent op DeepShopEn 38,4 procent op WebTailBench. Dit overtreft de 7B Computer Use Agent-basislijn UI-TARS-1.5-7B, die respectievelijk 66,4, 31,3, 11,6 en 19,5 scoorde, en steekt gunstig af bij grotere systemen zoals OpenAI computer-use-preview en SoM Agent-configuraties gebouwd op GPT-4o. Op WebVoyager gebruikt Fara-7B een gemiddelde van 124.000 invoertokens En 1.100 uitvoertokens per taakmet ongeveer 16,5 acties. Gebruikmakend van markttokenprijzen schat het onderzoeksteam de gemiddelde kosten van $ 0,025 per taakvergeleken met ongeveer $ 0,30 voor SoM-agents die worden ondersteund door eigen redeneermodellen zoals GPT-5 en o3. Fara-7B gebruikt een vergelijkbaar aantal invoertokens, maar ongeveer een tiende van de uitvoertokens van deze SoM-agents.
- Fara-7B: Een 7B-parameter, open-gewicht Computer Use Agent gebouwd op Qwen2.5-VL-7B.
- Bediening: Werkt rechtstreeks vanuit schermafbeeldingen en tekst en voert gegronde acties uit zonder toegankelijkheidsbomen tijdens deductietijd.
- Trainingsgegevens: 145.603 geverifieerde browsertrajecten en 1.010.797 stappen gegenereerd door de FaraGen-pijplijn over 70.117 domeinen.
- Benchmarksucces (WebVoyager): 73,5 procent.
- Benchmarksucces (Online-Mind2Web): 34,1 procent.
- Benchmarksucces (DeepShop): 26,2 procent.
- Benchmarksucces (WebTailBench): 38,4 procent.
- Kosten op WebVoyager: Ongeveer $ 0,025 per taakmet behulp van 124.000 invoertokens en 1.100 uitvoertokens.
- Efficiëntie van uitvoertokens: Ongeveer een orde van grootte goedkoper in het gebruik van outputtokens dan SoM-agents ondersteund door GPT-5-klassemodellen.
Fara-7B vertegenwoordigt een ontwikkeling in de richting van praktische Computer Use Agents die in staat zijn om lokale hardware te bedienen met lagere gevolgtrekkingskosten en tegelijkertijd de privacy behouden. De integratie van Qwen2.5-VL-7B, synthetische trajecten van FaraGen en WebTailBench biedt een traject van gegevensgeneratie door meerdere agenten naar een enkel compact model dat grotere systemen op belangrijke benchmarks evenaart of overtreft, terwijl er waarborgen voor kritieke punten en weigering zijn opgenomen.





