Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Microsoft’s Fara-7B: nieuwe agent LLM uit screenshots

byKerem Gülen
25 november 2025
in Research
Home Research
Share on FacebookShare on Twitter

Microsoft-onderzoek uitgegeven Fara-7B, een agentisch kleintaalmodel met 7 miljard parameters voor computergebruik, dat taken lokaal kan uitvoeren vanaf schermafbeeldingen. Fara-7B functioneert als een Computer Use Agent met een open gewicht en voorspelt muis- en toetsenbordacties rechtstreeks op basis van schermafbeeldingen. Het compacte formaat maakt uitvoering op één gebruikersapparaat mogelijk, waardoor de latentie wordt verminderd en de browsegegevens lokaal worden bewaard. In tegenstelling tot conventionele tekstgenererende chat-georiënteerde Large Language Models (LLM’s), besturen Computer Use Agents zoals Fara-7B de browser- of desktopinterfaces om taken uit te voeren zoals het invullen van formulieren, het boeken van reizen of het vergelijken van prijzen. Ze interpreteren het scherm, analyseren pagina-indelingen en produceren vervolgens acties op laag niveau, waaronder klikken, scrollen, typen, webzoekopdrachten of URL-bezoeken. Veel huidige systemen maken gebruik van grote multimodale modellen, geïntegreerd met complexe steigers die toegankelijkheidsbomen analyseren en verschillende tools coördineren. Dit verhoogt de latentie en vereist vaak implementatie op de server. Fara-7B condenseert de functionaliteit van dergelijke multi-agentsystemen in één enkel multimodaal decodermodel, gebouwd op Qwen2.5-VL-7B. Het verwerkt browserscreenshots en tekstcontext en genereert vervolgens gedachtetekst gevolgd door een toolaanroep met geaarde argumenten, zoals coördinaten, tekst of URL’s. De belangrijkste beperking voor computergebruiksagenten betreft gegevens, aangezien hoogwaardige logboeken van menselijke webinteracties in meerdere stappen schaars en duur zijn om te verkrijgen. Het Fara-project introduceert FaraGen, een synthetische data-engine die webtrajecten op live sites genereert en filtert. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/fara_xbox_multi_turn-3.mp4

Video: Microsoft

FaraGen maakt gebruik van een drietrapspijplijn. Taakvoorstel begint met zaad-URL’s van openbare corpora zoals ClueWeb22 en Tranco, onderverdeeld in domeinen zoals e-commerce, reizen, entertainment of forums. Grote taalmodellen zetten elke URL om in realistische gebruikerstaken, bijvoorbeeld het boeken van specifieke bioscoopkaartjes of het maken van een boodschappenlijstje met beoordelings- en materiële beperkingen. Taken moeten haalbaar zijn zonder login of betaalmuur, volledig gespecificeerd, nuttig en automatisch verifieerbaar.

Taak oplossen maakt gebruik van een multi-agent systeem gebaseerd op Magentic-One en Magentic-UI. Een Orchestrator-agent plant een strategie op hoog niveau en onderhoudt de taakstatus. Een WebSurfer-agent ontvangt toegankelijkheidsbomen en Set-of-Marks-screenshots en voert vervolgens browseracties uit via Playwright, waaronder klikken, typen, scrollen, visit_url of web_search. Een UserSimulator-agent biedt vervolginstructies voor taken die verduidelijking vereisen.

Trajectverificatie maakt gebruik van drie op LLM gebaseerde verificateurs. Een Alignment Verifier controleert of acties en definitieve antwoorden aansluiten bij de taakintentie. Een Rubric Verifier genereert een rubriek met subdoelen en scoort gedeeltelijke voltooiing. Een Multimodal Verifier inspecteert screenshots en het uiteindelijke antwoord om hallucinaties te detecteren en te bevestigen dat zichtbaar bewijs succes ondersteunt. Deze verificateurs tonen overeenstemming aan met menselijke labels erop 83,3 procent van de gevallen, met gerapporteerde fout-positieve en fout-negatieve percentages van ongeveer 17 tot 18 procent. Na filtering produceert FaraGen 145.603 trajecten met 1.010.797 stappen over 70.117 unieke domeinen. Trajecten variëren van 3 tot 84 stappen, gemiddeld 6,9 stappen en ongeveer 0,5 unieke domeinen per traject, wat aangeeft dat bij taken vaak sites betrokken zijn die elders in de dataset niet aanwezig zijn. Het genereren van gegevens met premiummodellen zoals GPT-5 en o3 kost ongeveer $ 1 per geverifieerd traject. Fara-7B is een multimodaal decoder-model dat Qwen2.5-VL-7B als basis gebruikt. Het verwerkt een gebruikersdoel, huidige browserscreenshots en de volledige geschiedenis van eerdere gedachten en acties. Het contextvenster ondersteunt 128.000 tokens. Bij elke stap genereert het model eerst een gedachtegang waarin de huidige staat en het huidige plan gedetailleerd worden beschreven, en voert vervolgens een toolcall uit waarin de volgende actie en de bijbehorende argumenten worden gespecificeerd. https://www.microsoft.com/en-us/research/wp-content/uploads/2025/11/driving_directions_cheese-1_revised.mp4

Video: Microsoft

De toolruimte is afgestemd op de Magentic-UI computer_use-interface en omvat sleutel, type, muis_verplaatsing, linker_klik, scrollen, visit_url, web_search, history_back, pauze_and_memorize_fact, wait en beëindigen. Coördinaten worden direct voorspeld als pixelposities op de schermafbeelding, waardoor het model kan werken zonder toegang tot de toegankelijkheidsboom tijdens gevolgtrekking. De training omvatte een begeleide afstemming van ongeveer 1,8 miljoen monsterswaarbij meerdere gegevensbronnen worden gecombineerd. Deze omvatten FaraGen-trajecten die zijn opgesplitst in stappen van observeren, denken en handelen, aardings- en UI-lokalisatietaken, op screenshots gebaseerde visuele vraagbeantwoording en ondertiteling, en datasets over veiligheid en weigering. Microsoft heeft evaluaties van Fara-7B uitgevoerd in vier live webbenchmarks: WebVoyager, Online-Mind2Web, DeepShop en de nieuwe WebTailBench. WebTailBench richt zich op ondervertegenwoordigde segmenten zoals restaurantreserveringen, sollicitaties, zoeken naar onroerend goed, vergelijkend winkelen en compositietaken op meerdere locaties. Op deze benchmarks behaalde Fara-7B 73,5 procent succes op WebVoyager, 34,1 procent op Online-Mind2Web, 26,2 procent op DeepShopEn 38,4 procent op WebTailBench. Dit overtreft de 7B Computer Use Agent-basislijn UI-TARS-1.5-7B, die respectievelijk 66,4, 31,3, 11,6 en 19,5 scoorde, en steekt gunstig af bij grotere systemen zoals OpenAI computer-use-preview en SoM Agent-configuraties gebouwd op GPT-4o. Op WebVoyager gebruikt Fara-7B een gemiddelde van 124.000 invoertokens En 1.100 uitvoertokens per taakmet ongeveer 16,5 acties. Gebruikmakend van markttokenprijzen schat het onderzoeksteam de gemiddelde kosten van $ 0,025 per taakvergeleken met ongeveer $ 0,30 voor SoM-agents die worden ondersteund door eigen redeneermodellen zoals GPT-5 en o3. Fara-7B gebruikt een vergelijkbaar aantal invoertokens, maar ongeveer een tiende van de uitvoertokens van deze SoM-agents.

  • Fara-7B: Een 7B-parameter, open-gewicht Computer Use Agent gebouwd op Qwen2.5-VL-7B.
  • Bediening: Werkt rechtstreeks vanuit schermafbeeldingen en tekst en voert gegronde acties uit zonder toegankelijkheidsbomen tijdens deductietijd.
  • Trainingsgegevens: 145.603 geverifieerde browsertrajecten en 1.010.797 stappen gegenereerd door de FaraGen-pijplijn over 70.117 domeinen.
  • Benchmarksucces (WebVoyager): 73,5 procent.
  • Benchmarksucces (Online-Mind2Web): 34,1 procent.
  • Benchmarksucces (DeepShop): 26,2 procent.
  • Benchmarksucces (WebTailBench): 38,4 procent.
  • Kosten op WebVoyager: Ongeveer $ 0,025 per taakmet behulp van 124.000 invoertokens en 1.100 uitvoertokens.
  • Efficiëntie van uitvoertokens: Ongeveer een orde van grootte goedkoper in het gebruik van outputtokens dan SoM-agents ondersteund door GPT-5-klassemodellen.

Fara-7B vertegenwoordigt een ontwikkeling in de richting van praktische Computer Use Agents die in staat zijn om lokale hardware te bedienen met lagere gevolgtrekkingskosten en tegelijkertijd de privacy behouden. De integratie van Qwen2.5-VL-7B, synthetische trajecten van FaraGen en WebTailBench biedt een traject van gegevensgeneratie door meerdere agenten naar een enkel compact model dat grotere systemen op belangrijke benchmarks evenaart of overtreft, terwijl er waarborgen voor kritieke punten en weigering zijn opgenomen.


Uitgelicht beeldtegoed

Tags: fara-7bMicrosoft

Related Posts

Het wereldwijde tekort aan geheugenchips zorgt ervoor dat de pc-prijzen de pan uit rijzen

Het wereldwijde tekort aan geheugenchips zorgt ervoor dat de pc-prijzen de pan uit rijzen

14 januari 2026
Ingenieurs bouwen op sprinkhanen geïnspireerde robots om het leeglopen van de batterij op te lossen

Ingenieurs bouwen op sprinkhanen geïnspireerde robots om het leeglopen van de batterij op te lossen

14 januari 2026
Natuurstudie projecteert 2B draagbare gezondheidsapparaten tegen 2050

Natuurstudie projecteert 2B draagbare gezondheidsapparaten tegen 2050

7 januari 2026
Imperial College London ontwikkelt AI om de ontdekking van hartmedicijnen te versnellen

Imperial College London ontwikkelt AI om de ontdekking van hartmedicijnen te versnellen

6 januari 2026
DeepSeek introduceert Manifold-Constrained Hyper-Connections voor R2

DeepSeek introduceert Manifold-Constrained Hyper-Connections voor R2

6 januari 2026
CMU-onderzoekers ontwikkelen zelfbewegende objecten, aangedreven door AI

CMU-onderzoekers ontwikkelen zelfbewegende objecten, aangedreven door AI

31 december 2025

Recent Posts

  • Het wereldwijde tekort aan geheugenchips zorgt ervoor dat de pc-prijzen de pan uit rijzen
  • OpenAI neemt Torch over om ChatGPT Health beter te maken
  • Amazon forceert Prime-leden naar Alexa+
  • Kinderen bedriegen Roblox met foto's van Kurt Cobain om chatverboden te omzeilen
  • Meta's omgekeerde droom vervaagt als 1.000 werknemers worden ontslagen

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.