Grote taalmodellen (LLMS) worden slimmer, maar er is één groot probleem: ze weten niet hoe ze efficiënt moeten leren. Magellan is een nieuw AI -framework dat menselijk leren nabootst door zijn eigen vooruitgang te voorspellen – waardoor het enorme doelruimtes kan navigeren zonder vast te zitten aan wat te gemakkelijk of te moeilijk is.
Ontwikkeld door onderzoekers uit Inria en MIT, waaronder Loris Gaven, Thomas Carta, Clément Romac, Cédric Colas, Sylvain Lamprier, Olivier Sigaud en Pierre-Yves Oudeyer, de studie “Magellan: Metacognitieve voorspellingen van leervoortgangsgids Guide Autotelic LLM -agenten in grote doelruimtes”Introduceert een raamwerk dat AI een metacognitief vermogen geeft – in wezen de vaardigheid om te voorspellen hoeveel het zal verbeteren door een taak te oefenen. Dit laat AI prioriteit geven aan leerdoelen op een open manier, net zoals mensen doen bij het aanpakken van nieuwe vaardigheden.
AI geeft geen prioriteit aan het goed leren goed
Traditionele AI -leermethoden worstelen in enorme doelruimtes. Zij ook:
- Verspil tijd aan taken die ze al onder de knie hebbenlangzaam vooruitgang boeken.
- Probeer doelen die te moeilijk zijnwat leidt tot herhaalde mislukkingen.
- Vereisen door de mens gedefinieerde doelcategorieëndie inefficiënt is en niet schaalt.
Mensen daarentegen instinctief Zoek uitdagingen die hun capaciteiten uitstrekken zonder onmogelijk te zijn. Magellan brengt deze mensachtige benadering van LLM-training.
Hoe Magellan werkt: vooruitgang voorspellen, niet alleen prestaties
De meeste AI -trainingssystemen ook:
- Meet eerdere prestaties (wat niet helpt met nieuwe doelen).
- Gebruik vaste moeilijkheidsbeoordelingen (die zich niet aanpassen aan veranderende vaardigheden).
Magellan neemt een slimmere route. Het schat dynamisch Hoeveel een AI zal een doel verbeteren als deze het oefent. Hierdoor kunnen AI -modellen leertaken selecteren die de voortgang maximaliseren in plaats van dingen willekeurig te proberen.
De methode werkt door een proces dat wordt genoemd Absolute Learning Progress (ALP)—Tracken hoeveel een AI in de loop van de tijd verbetert bij een bepaalde taak. Met behulp van ALP clustert Magellan doelen in zinvolle categorieën zonder menselijke tussenkomst, AI laten generaliseren over gerelateerde vaardigheden.
LLM -prestatiescores zijn opgeblazen: een nieuwe methode toont de waarheid
AI leren om te leren als een mens
Om Magellan te testen, gebruikten onderzoekers een interactieve AI -omgeving genaamd Kleine Zoowaarbij een LLM -agent verschillende taken moest leren – zoals het herkennen van objecten, het kweken van planten en zelfs interactie met dieren.
De resultaten waren duidelijk:
- AI, getraind met Magellan, overtrof alle andere methoden en beheerste meer taken sneller.
- Het gegeneraliseerde beterwat betekent dat het nieuwe, ongeziene uitdagingen effectiever zou kunnen aanpakken.
- Het vereiste geen door de mens gelabelde doelcategorieënhet bewijzen van zijn schaalbaarheid.
Traditionele leerbenaderingen daarentegen zijn vroeg of vereist Gedefinieerde doelgroepen met deskundigenwaardoor ze rigide en inefficiënt zijn.
Waarom dit ertoe doet
De grootste doorbraak van Magellan is zelfgestuurd leren. In plaats van te vertrouwen op menselijke ingenieurs om doelen te selecteren, kan de AI autonoom bepalen wat hij vervolgens moet leren op basis van zijn eigen vooruitgang. Dit verschuift AI van passief getraind om zichzelf actief te verbeteren, waardoor het een transformerende aanpak op meerdere velden is.
AI -assistenten kunnen zichzelf nieuwe vaardigheden leren door gebieden te identificeren waar ze worstelen, waardoor hun vermogen om zich aan te passen zonder menselijke tussenkomst, verbetert. In robotica kunnen machines hun vaardigheden verfijnen door zich te concentreren op taken met het hoogste leerpotentieel, wat leidt tot efficiëntere en capabele autonome systemen. In het onderwijs kunnen AI-docenten lessen in realtime aanpassen, niet alleen op basis van prestaties uit het verleden, maar op voorspelde verbetering, die een meer gepersonaliseerde leerervaring bieden.
Magellan bewijst dat AI dat kan Denk aan zijn eigen lerenwaardoor het enorm efficiënter is in open omgevingen. De volgende stap kan deze methode beelden die verder gaat dan op tekst gebaseerde doelen in gebaseerde doelen in velden zoals robotica, wetenschappelijke ontdekking en zelfs menselijk onderwijs.
Uitgelichte afbeeldingskrediet: Kerem gülen/ideogram