NVIDIA heeft een grote vooruitgang in AI-modeltraining onthuld met de lancering van de Genormaliseerde transformator (nGPT). Deze nieuwe architectuur, ontworpen om het trainingsproces voor grote taalmodellen (LLM’s) te verbeteren, heeft het potentieel om de trainingstijd vier tot twintig keer te versnellen, terwijl de stabiliteit en nauwkeurigheid van het model behouden blijven. Het nGPT-model stroomlijnt het trainingsproces, gebruikt minder middelen en biedt een efficiëntere oplossing voor de ontwikkeling van AI.
Wat nGPT anders maakt: hypersferisch leren
De kern van de efficiëntie van nGPT is een concept genaamd hypersferisch representatie leren. In traditionele transformatormodellen worden gegevens vaak verwerkt zonder een consistent geometrisch raamwerk. NVIDIA’s nGPT verandert dit door alle belangrijke componenten, zoals inbedding, aandachtsmatrices en verborgen toestanden, in kaart te brengen op het oppervlak van een hypersfeer. Deze geometrische opzet zorgt ervoor dat alle lagen van het model tijdens de training in balans blijven, waardoor een stabieler en efficiënter leerproces ontstaat.
Deze aanpak vermindert het aantal trainingsstappen aanzienlijk. In plaats van gewichtsverval rechtstreeks toe te passen op modelgewichten zoals eerdere modellen, vertrouwt nGPT op geleerde schaalparametersdie optimaliseren hoe het model zich tijdens de training aanpast. Belangrijk is dat deze methode de noodzaak van andere normalisatietechnieken, zoals LaagNorm of RMSNormwaardoor het proces eenvoudiger en sneller wordt.

Sneller trainen met minder middelen
De resultaten van de architectuur van nGPT zijn duidelijk. In tests uitgevoerd met behulp van de OpenWebText-dataset presteerde NVIDIA’s nGPT consistent beter dan traditionele GPT-modellen in termen van zowel snelheid als efficiëntie. Met tekstinvoer tot 4.000 tokens had nGPT veel minder trainingsrondes nodig om een vergelijkbaar validatieverlies te bereiken, waardoor de tijd die nodig is om deze complexe modellen te trainen drastisch werd verkort.
Bovendien zorgt de hypersferische structuur van nGPT voor betere het inbedden van scheidbaarheid. Dit betekent dat het model gemakkelijker onderscheid kan maken tussen verschillende inputs, wat leidt tot verbeterde nauwkeurigheid tijdens standaard AI-tests. De verbeterde generalisatie van het model zorgt er ook voor dat het beter kan presteren op taken die verder gaan dan de initiële training, waardoor de convergentie wordt versneld en tegelijkertijd een hoog nauwkeurigheidsniveau behouden blijft.

Waarom dit belangrijk is voor AI-training
Een belangrijk voordeel van nGPT is het vermogen om beide te combineren normalisatie En vertegenwoordiging leren in één uniform raamwerk. Dit ontwerp vereenvoudigt de architectuur van het model, waardoor het eenvoudiger kan worden geschaald en aangepast voor complexere hybride systemen. Dit zou in de toekomst mogelijk kunnen leiden tot de ontwikkeling van nog krachtigere AI-systemen, omdat de aanpak van nGPT zou kunnen worden geïntegreerd in andere soorten modellen en architecturen.
Uitgelichte afbeeldingscredits: Kerem Gülen/Ideogram