Wat als het automatiseren van een desktop niet over scriptklikpatronen ging, maar over het geven van een intelligent team van agenten? Dat is het kernidee achter UFO2Microsoft’s nieuwste open-source-systeem dat verder gaat dan de huidige computer-gebruikelijke agenten (CUA’s) en automatisering opnieuw uitvindt als een eersteklas OS-abstractie. Het verandert uw bureaublad in een intelligent bedieningspaneel waar taalgestuurde taken native, betrouwbaar en met minimale verstoring van uw workflow worden uitgevoerd.
Traditionele desktopautomatiseringstools zoals RPA -systemen hebben altijd geworsteld met robuustheid. Een kleine verandering in een gebruikersinterface kan een heel script verwoesten. CUAS probeerde dit aan te pakken met grote taalmodellen en screenshot -analyse, maar ze bleven beperkt door ondiepe systeemintegratie en onhandige gebruikerservaringen. UFO2 draait dit model door door te bouwen vanaf het besturingssysteem. Het introduceert een multiagent architectuur waar een centrale hostagent coördineert gespecialiseerd Appagenten voor verschillende toepassingen. Elke agent spreekt de moedertaal van de app via API’s en UI metadata, niet alleen pixels.

Een van de belangrijkste technische innovaties van UFO2 is het hybride actiemodel. In plaats van alleen op knoppen zoals een mens te klikken, kan elke AppAgent echte API’s noemen wanneer beschikbaar. Dit betekent dat taken zoals het exporteren van een spreadsheet of opmaaktekst worden verminderd van meerstappen GUI-dansen tot een enkele, atomaire functieaanroep. Het systeem speculeert ook vooruit – het gebruik van een enkele LLM -oproep om meerdere stappen te plannen en elk live te valideren met Windows UI -gegevens. Dit Speculatieve uitvoering van meerdere actie Verlaagt de latentie dramatisch zonder de juistheid te riskeren.
Isolatie zonder onderbreking
CUAS kapen meestal uw bureaublad, waardoor de muis en het toetsenbord worden vergrendeld tijdens de uitvoering. UFO2’s Picture-in-Picture (PIP) Mode lost dit op met een virtueel desktopvenster dat parallel automatiseringstaken uitvoert. De agent doet zijn ding in een sandbox -omgeving, terwijl u in de hoofdsessie blijft werken. Het is naadloos, veilig en gebruikt native Windows RDP -loopback om de sessie -integriteit te behouden.

UFO2 integreert helpdocumentatie en uitvoeringslogboeken in een ophalen-geheugen geheugen, waardoor de aanwijzingen met procedurele kennis worden verrijkt. In de loop van de tijd creëert dit een zelfversterkende agent die beter wordt bij nieuwe taken zonder om te gaan. Elke AppAgent haalt uit documentatie, patchnotities en eerdere runs om slimmere beslissingen te nemen. Het is een automatiseringssysteem met geheugen, niet alleen voor het genereren van reacties.
In head-to-head benchmarks tegen de operator van Openai en andere topcuas, presteert UFO2 consequent beter dan. Op de OSWORLD-W-benchmark bereikt UFO2 een succespercentage van 32,7% met behulp van het O1-model-meer dan het verdubbelen van 14,3% van de operator. De speculatieve planning vermindert actiestappen met maximaal 50%. Hybride controledetectie (het combineren van UIA API’s en Vision Parsing) herstelt meer dan 25% van de eerder mislukte interacties. Simpel gezegd, UFO2 is niet alleen slimmer – het is systemisch beter.
Alles is nu een agent
Uitbreidbaarheid wordt ingebouwd. UFO2 maakt het mogelijk dat tools van derden, waaronder andere CUA’s zoals operator, worden ingepakt als appagenten. Dit betekent dat u gespecialiseerde copiloten of gepatenteerde automatiserings backends kunt integreren in het UFO2 -ecosysteem zonder code om te scholen of te herschrijven. Het ondersteunt ook een client-server-architectuur voor enterprise-implementatie, waardoor orkestratie gecentraliseerd blijft en gebruikersapparaten licht.
De paper schetst toekomstige doelen, inclusief platformonafhankelijke compatibiliteit met macOS en Linux via analoge API’s van toegankelijkheid, snellere respons via kleinere LLMS en verbeterde redenering van speciale GUI-interactiegegevenssets. Maar zelfs in zijn huidige status vertegenwoordigt UFO2 een Nieuwe basislijn voor desktopautomatisering. Het is open-source, al beter dan commerciële systemen en brengt een nieuw niveau van modulariteit, betrouwbaarheid en intelligentie aan de interactie tussen mens en computer.
Voor iedereen die de volgende generatie intelligente agenten bouwt – of alleen maar zat van brosse scripts –UFO2 is beschikbaar op GitHub samen met zijn documentatie.
Uitgelichte afbeeldingskrediet