Deze AI leert beter te klikken dan jij

Kunstmatige intelligentie is eindelijk leren hoe u als een mens door uw telefoonscherm kunt navigeren – behalve sneller, slimmer en met schokkend weinig oefening. Een nieuw onderzoek Project van Vivo AI Lab en MMLab aan de Chinese Universiteit van Hong Kong introduceert een model met de naam UI-R1wat heroverwist hoe AI -agenten worden getraind om grafische gebruikersinterfaces (GUI’s) te begrijpen en te interageren. En hier is de wending: het is niet afhankelijk van enorme datasets of duizenden GPU -uren.

In plaats daarvan doet UI-R1 iets verfrissends slims. Het leert door Versterking leren (RL)—Not Supervised Fine-Tuning (SFT), de standaardmethode die handmatig gelabelde gegevens en dure trainingscycli vereist. Dat betekent dat het niet nodig is om het tienduizenden voorbeelden van knoppen, schuifbalken of tekstvakken te voeren. Slechts een zorgvuldig geselecteerde batch van 136 mobiele taken was voldoende om een model te bouwen dat beter presteert dan veel grotere, zwaar getrainde modellen op real-world schermtaken.

Laten we uitpakken waarom dit ertoe doet en hoe het werkt.

Dus wat doet UI-R1 eigenlijk?

Stel je voor: je kijkt naar een screenshot van een telefoonscherm en iemand zegt dat je “op de knop Terug moet tikken.” U kijkt naar de lay -out, zoek uit waar de achterste knop is en tikt erop. Lijkt gemakkelijk voor een mens.

Stel je nu voor dat je een AI traint om dat te doen. Jarenlang heeft dit betekenen dat het trainen van enorme multimodale modellen (modellen die afbeeldingen en tekst samen kunnen begrijpen) om commando’s zoals “Tik terug” te associëren met de juiste plek op het scherm. Dat is wat GUI-agenten zoals CogaGaTent, Aria-Gui en OS-ATLA’s doen-ze leren van enorme datasets met gelabelde voorbeelden van acties en elementen.

Maar dit proces is langzaam, duur en generaliseert niet goed. Wanneer u de AI van een telefoonscherm verplaatst naar een desktopinterface of een webbrowser, tanks de prestaties vaak. Het is alsof je een hond traint om een bal te halen, maar slechts in één kamer van je huis – neem hem buiten en de hond vergeet wat te doen.

UI-R1 verandert dit. In plaats van te proberen duizenden interface -lay -outs te ‘onthouden’, leert het hoe ze erover kunnen redeneren slim op regel gebaseerd beloningssysteem.

Een slimmer beloningssysteem, geen groter model

Het model achter UI-R1 wordt genoemd Qwen2.5-VL-3B—Een multimodaal model van 3 miljard parameter, veel kleiner dan de 7B- en 18B -reuzen in het spel. Maar UI-R1 verfijnt het met behulp van RL met een uniek beloningssysteem dat geen menselijke feedback vereist.

Deze beloningsfunctie beoordeelt het model op drie dingen:

Heeft het gekozen voor het juiste actietype? (Klik, scroll, ga terug, open app, invoertekst invoer)
Heeft het de juiste plek geselecteerd om te klikken? (Coördinaten moeten binnen de juiste doos vallen)
Heeft het zijn redenering duidelijk uitgelegd en een geldig definitief antwoord gegeven? (Met behulp van een gestructureerd formaat)

Deze gestructureerde feedback -lus helpt het model te leren betere voorspellingen te doen in de loop van de tijd. Zie het als een spel: elke keer dat de AI dichter bij het juiste antwoord komt, scoort het punten op basis van deze regels en komt het geleidelijk uit hoe je vaker kunt winnen.

Belangrijk is dat het niet alleen leert om te raden – het leert uit te leggen waarom het denkt dat een bepaalde knop de juiste is om op te tikken. Dat is de sleutel voor bouwagenten die u kunt vertrouwen om software, apps en apparaten te bedienen.

AI Masters -taal maar flunks LEGO 101

Kleine gegevens, grote winsten

Hier worden de dingen wild. UI-R1 is alleen getraind 136 voorbeelden– en het presteerde nog steeds beter dan veel begeleide modellen die op duizenden zijn getraind.

Op benchmarks zoals Schermen En Screenspot-prodie testen hoe goed een model UI-elementen kan identificeren op verschillende platforms (mobiel, desktop en web), UI-R1 geleverde aarding 78,6%het verslaan van modellen zoals Seeclick (getraind op 1 miljoen voorbeelden!) En zelfs overeenkomen met de prestaties van grotere 7B -modellen.

Het kreeg ook een andere benchmark genaamd Androidcontrolwaar het nodig was om zowel het juiste actietype te voorspellen als waar het toe te passen. UI-R1 geklokt met een 88,5% gemiddelde nauwkeurigheidhet beter presteren van modellen die zijn getraind op 76.000 voorbeelden – een absurd niveau van efficiëntie voor slechts 136 trainingstaken.

Dat is alsof je iemand schaakt door hem slechts 10 wedstrijden te laten zien – en ze de clubkampioen te zien verslaan.

Waarom werkt dit zo goed?

Een paar dingen onderscheiden UI-R1 uit elkaar:

Regelgebaseerde beloningen: Geen behoefte aan gelabelde gegevens of menselijke recensenten. Het model scoort zichzelf op basis van eenvoudige, gestructureerde regels.
Versterking over herhaling: In plaats van antwoorden te onthouden (zoals in begeleide training), leert UI-R1 strategieën die generaliseren.
Zorgvuldig geselecteerde gegevens: Het team gooide niet alleen trainingsvoorbeelden in. Ze kozen taken die moeilijk, divers en hoogwaardig waren. Geen vulmiddel.

En misschien het belangrijkste is dat het model niet alleen blindelings raden. Dankzij de “redeneertokens” en gestructureerde uitvoerformaat ( en tags) leert UI-R1 na te denken over elke taak. Dat is wat het zo goed maakt naar nieuwe omgevingen – zelfs met onbekende lay -outs.

Wat betekent dit voor AI -interfaces?

Dit zou het begin kunnen zijn van een nieuwe golf van generalistische GUI -agenten. In plaats van op maat gemaakte modellen voor elke app, platform of taak te trainen, kunnen we mogelijk compacte, aanpasbare modellen zoals UI-R1 bouwen die via elk scherm, elk apparaat, elke instructie kunnen redeneren.

Voor ontwikkelaarshet betekent lagere kosten, minder gegevens en snellere iteratie.
Voor gebruikershet kan slimmer virtuele assistenten betekenen die daadwerkelijk begrijpen wat u op uw scherm wilt doen.
Voor onderzoekershet is een bewijs dat versterking leren met eenvoudige op regels gebaseerde beloningen niet alleen voor games en wiskundeproblemen is-het is een echt alternatief voor SFT voor interfacetaken.

Het is nog vroeg

Hoewel de resultaten van de UI-R1 indrukwekkend zijn, is er meer te doen. Het vereist bijvoorbeeld nog steeds schone invoerformaten en zorgvuldig geschreven aanwijzingen. Het gaat er ook van uit dat de screenshots en instructies van het apparaat redelijkerwijs zijn uitgelijnd – een veilige veronderstelling in een benchmark -setting, maar lastiger in de rommelige echte wereld.

Toch is het een belangrijke stap voorwaarts.

En misschien het meest opwindend, laat het zien Smarter Training verslaat grotere modellen– Tenminste als het gaat om het begrijpen van wat er op uw scherm staat en uitzoeken hoe u moet handelen.

In een wereld waar we omringd worden door steeds complexere software, is AI zoals UI-R1 misschien binnenkort degene die klikt, scrollen en tikken namens ons-met precisie, reden en nauwelijks een training.

Uitgelichte afbeeldingskrediet