AI Labs investeren in RL -omgevingen voor autonome agenten

Investeerders van Silicon Valley en Major AI Labs doen aanzienlijke investeringen in de omgevingen (RL) (RL), die gesimuleerde werkplekken zijn die zijn ontworpen om AI -agenten te trainen om autonoom software te gebruiken. Hoewel AI-agenten zoals de Chatgpt-agent van Openai veelbelovend hebben getoond, worstelen ze nog steeds met complexe, multi-step-taken. Deze nieuwe golf van investeringen is gericht op het creëren van geavanceerde trainingsgronden om deze beperkingen te overwinnen, verder gaan dan de statische, gelabelde datasets die de laatste generatie AI hebben aangedreven.

Hoe AI -leeromgevingen werken

RL -omgevingen zijn virtuele trainingsgronden waar een AI -agent kan oefenen met het gebruik van software in een gecontroleerde instelling. De agent ontvangt feedback via een systeem van beloningen en straffen, net als een spel. Een agent die belast is met het kopen van sokken op Amazon in een gesimuleerde Chrome -browser zou een positieve beloning ontvangen voor het succesvol voltooien van de aankoop. Het zou een boete ontvangen voor fouten zoals het kiezen van het verkeerde item of het niet navigeren van een menu. Deze dynamische omgevingen zijn veel complexer om te bouwen dan statische datasets. Ze moeten rekening houden met een breed scala aan onvoorspelbare agentacties en precieze feedback geven om verbetering te begeleiden. Het concept bouwt voort op eerder AI -onderzoek, zoals de “RL Gyms” ontwikkeld door OpenAI in 2016 en het gesimuleerde bord traint de AlphaGo van DeepMind. De omgevingen van vandaag worden echter toegepast op transformatiemodellen voor algemene doeleinden om ze te trainen voor open taken zoals webnavigatie en documentbewerking.

Er is een nieuw ecosysteem van startups in opkomst om aan de vraag te voldoen

Grote AI-laboratoria zoals Openai, Anthropic en Meta bouwen hun eigen RL-omgevingen op, maar de complexiteit en schaal van de taak hebben een vraag gecreëerd naar specialisten van derden. Dit heeft de groei van een nieuw ecosysteem van startups aangewakkerd en gevestigde gegevensbedrijven ertoe aangezet om te draaien.

Mechanize werkeen nieuwe startup, richt zich op het creëren van een klein aantal high-fidelity-omgevingen voor taken zoals AI-codering. Het bedrijf werkt naar verluidt samen met antropisch en biedt salarissen tot $ 500.000 om toptalent aan te trekken.
Prime intellect richt zich op kleinere ontwikkelaars met een open-source hub dat het een “knuffelend gezicht voor RL-omgevingen” noemt. Het platform biedt toegang tot vooraf gebouwde simulaties en verkoopt de rekenbronnen die nodig zijn om ze te uitvoeren.
Golfeen datalabelbedrijf dat vorig jaar $ 1,2 miljard aan inkomsten heeft gerapporteerd, heeft een nieuwe interne organisatie gecreëerd die zich toelegt op het bouwen van RL-omgevingen om aan de stijgende vraag van haar klanten te voldoen.
Mercor Ontwikkelt domeinspecifieke omgevingen voor gebieden zoals codering, gezondheidszorg en wetgeving, waarbij agenten kunnen worden getraind op gesimuleerde software voor taken zoals het beoordelen van patiëntendossiers of juridische contracten.
Schaal AIeen voormalige leider in databentranken, past zich ook aan door RL -omgevingen te ontwikkelen, omdat het concurrerend wil blijven na het verliezen van belangrijke contracten met Google en OpenAI.

Uitdagingen en het pad vooruit

Ondanks de zware investering, inclusief een gerapporteerd plan van antropisch om meer dan $ 1 miljard toe te wijzen aan RL -omgevingen, blijven er aanzienlijke uitdagingen bestaan. Ross Taylor, een voormalige AI -onderzoeksleider bij Meta, wees op het probleem van ‘beloning hacking’, waarbij agenten mazen vinden om beloningen te winnen zonder de beoogde taak daadwerkelijk te voltooien. Sherwin Wu van Openai heeft een tekort opgemerkt aan gespecialiseerde startups die kunnen voldoen aan de snel evoluerende behoeften van de toplaboratoria. Er is ook een debat binnen de AI -gemeenschap over de meest effectieve trainingsmethoden.

Andrej Karpathyeen belegger in prime intellect, deelde een genuanceerd beeld van X.

“Ik ben bullish over omgevingen en agentische interacties, maar ik ben specifiek bearish op het leren van versterking.”

Dit perspectief benadrukt het enthousiasme voor het gebruik van gesimuleerde omgevingen, terwijl ook wordt erkend dat de beste manier om intelligentie uit hen te extraheren nog steeds een open vraag is. Desalniettemin worden deze omgevingen gezien als een kritieke component bij het ontwikkelen van de volgende generatie meer capabele en autonome AI -agenten, waardoor recente doorbraken zoals Openai’s O1 en Anthropic’s Claude Opus 4.

Uitgelichte afbeeldingskrediet