Zelfrijdende auto’s worden verondersteld de toekomst te zijn. AI wordt verondersteld het wiel te nemen, feilloos te navigeren en menselijke fouten te elimineren. Toch zijn we hier, nog steeds onze stuurwielen vast, terwijl AI door simulaties struikelt, waardoor fouten die variëren van hilarisch slecht tot ronduit gevaarlijk.
Waarom? Omdat AI erachter komt vallen en opstaan—Het digitale equivalent van het gooien van pijltjes in het donker totdat het eindelijk de bullseye raakt. Dat is prima als de inzet laag is, zoals het spelen van schaken of het optimaliseren van advertenties. Maar als het gaat om real-world applicaties-waar een fout betekent dat ze in een voetganger ploegen-valt deze aanpak uit elkaar.
Volgens een studie uitgevoerd door Zhenghao Peng, Wenjie Mo, Chenda Duan en Bolei Zhou van de Universiteit van Californië, Los Angeles (UCLA)samen met Quanyi Li van de Universiteit van EdinburghAI -training kan dramatisch worden verbeterd met behulp van Propagatie van proxywaarde (PVP). Hun onderzoek, getiteld Leren van actieve menselijke betrokkenheid door proxywaarde propagatiedaagt traditionele versterking uit door dat te bewijzen Actieve menselijke interventie leidt tot snellere, veiliger en efficiëntere AI -training.
Traditioneel Versterking leren (RL)de standaard manier waarop AI beslissingen leert te nemen, is pijnlijk traag. Het vereist miljoenen pogingen Voordat een AI erachter komt wat werkt. Erger nog, het gaat ervan uit dat AI de menselijke bedoeling kan begrijpen door alleen een beloningssysteem te volgen – wanneer beloningssystemen in werkelijkheid vaak leiden tot bizar, onbedoeld gedrag. Denk aan een AI die is getraind om een race te winnen die erachter komt dat het gewoon in cirkels in de startlijn kan rijden om “afstandsreis” -punten te behalen zonder ooit de baan af te maken.
Het is duidelijk dat AI een betere leraar nodig heeft. En die leraar? Jij.
Laat mensen in realtime ingrijpen
Propagatie van proxywaarde (PVP) is een nieuwe methode die AI -training verandert in iets veel menselijker. In plaats van AI maandenlang door zijn fouten te laten blunderen, laat PVP mensen intrekken, tussenkomen en AI laten zien wat te doen in realtime.
- Stel je voor dat AI leert rijden in een simulatie, zeg maar, Grand Theft Auto V (GTA V).
- De AI neemt een vreselijke beslissing – zegt een rood licht rechtstreeks in het verkeer.
- In plaats van te zien hoe de chaos zich ontvouwt, neemt een mens de controle op dat moment en corrigeert de actie van de AI.
- Het systeem labelt vervolgens de beslissing van de mens als een “Goed” beweging en de vorige fout van de AI als een “Slechte” beweging.
- Met behulp van een techniek genaamd waardepropagatieAI verspreidt deze correctie over vergelijkbare situaties, leren slechte beslissingen te vermijden Zonder miljoenen pogingen nodig te hebben.
Het resultaat is verrassend. AI leert veel snellermet Minder foutenen – het meest belangrijk – het eigenlijk sluit aan bij de menselijke verwachtingen in plaats van blindelings beloningspunten te achtervolgen.
AI worstelt met strategie: studie toont aan dat LLMS te veel onthult in sociale aftrekgames
De cijfers liegen niet: PVP werkt
Het team achter PVP heeft het op de proef gesteld GTA V, Carla (een rijsimulator) en Minigrid (een virtuele doolhofnavigatietaak). De resultaten waren verbluffend:
- AI getraind met PVP geleerd 10 keer sneller dan traditionele methoden.
- Het vereiste alleen 1.200 menselijke interventies– Vergelijkbaar met de 300.000 Pogingen AI heeft meestal nodig in RL.
- Het succespercentage van PVP-getrainde AI bij het veilig bereiken van bestemmingen was 85%vergeleken met alleen 20-50% Voor eerdere methoden.
- AI gemaakt 75% minder kritische fouten Wanneer getraind met PVP versus traditioneel versterking leren.
Met andere woorden, AI begon eigenlijk te rijden Als een mens– Niet gewoon een robot geprogrammeerd om abstracte beloningen te maximaliseren.
Een overwinning voor AI – en voor mensen
PVP is niet alleen beter voor AI. Het maakt het leven ook gemakkelijker voor de mensen die het trainen. Traditionele AI -training vereist constant menselijk toezicht, uren vol feedback en heel veel geduld. Met PVP had AI nodig 50% minder menselijke inspanningen om te trainen. Testers beoordeelde PVP-getrainde AI 4.8 van de 5 voor nauwkeurigheidvergeleken met alleen 3.0 voor oudere methoden. AI die volgde op PVP -training veroorzaakte aanzienlijk minder stress Voor menselijke trainers – omdat het niet constant correcties vereiste. Voor een technologie die ons leven gemakkelijker zou moeten maken, is dat een enorme stap voorwaarts.
Van GTA naar de straat
PVP heeft zich al bewezen in virtuele rijtests. De echte vraag is: kan het werken real-world applicaties?
Het potentieel is enorm. In plaats van uitsluitend te vertrouwen op voorgeprogrammeerde regels, zou AI rechtstreeks kunnen leren van menselijke interventie, waardoor het veiliger, sneller werd. AI-aangedreven robots in magazijnen, ziekenhuizen of zelfs huizen kunnen in realtime worden getraind in plaats van door middel van proef en er. Menselijke artsen zouden kunnen ingrijpen tijdens AI-geassisteerde operaties of diagnoses, waardoor het systeem direct wordt geleerd wat goed of fout is.
Soms is het doel alleen om AI te maken menselijk genoeg– om te handelen op manieren die we verwachten, aansluiten bij onze waarden en om fouten te voorkomen die ons in gevaar brengen.
Uitgelichte afbeeldingskrediet: Kerem gülen/midjourney