Het Chinese bedrijf Deepseek AI heeft zijn grote taalmodel, R1, dat werd getraind voor slechts $ 294.000 met behulp van 512 Nvidia H800 GPU’s. In een paper gepubliceerd in het tijdschrift Natuurhet bedrijf heeft gedetailleerd hoe het deze lage kosten heeft bereikt door een leermethode van proef-en-error versterking te gebruiken, waardoor het model concurrerende prestaties kan bereiken tegen rivalen met veel grotere budgetten, zoals OpenAI.
Hoe de diepte -leermethode van Deepseek werkt
De belangrijkste innovatie van Deepseek was om weg te gaan van het dure, mens-intensieve proces van het maken van geannoteerde datasets. Traditionele AI-modellen voor redeneringstaken worden vaak getraind op enorme datasets waarbij menselijke experts stapsgewijze oplossingen bieden voor complexe problemen. In plaats daarvan ontwikkelde Deepseek een autonoom leersysteem dat versterking van het leren van versterking gebruikt om de redeneervaardigheden van het model te verfijnen via een systeem van beloningen en straffen. Onderzoekers van Carnegie Mellon University vergeleken in een artikel bij het natuurpapier, het proces vergeleken met een kind dat een videogame leerde spelen.
“Terwijl het kind hun avatar door de gamewereld navigeert, leren ze door vallen en opstaan dat sommige acties (zoals het verzamelen van gouden munten) punten verdienen, terwijl anderen (zoals tegenkomen in vijanden) hun score terugzetten op nul. In een soortgelijke ader kreeg Deepseek-R1 een hoge score toen het correct en een lage score beantwoordde toen het verkeerde antwoorden gaf.”
Deze methode was vooral effectief voor taken in wiskunde en programmering, waarbij antwoorden definitief kunnen worden geverifieerd als goed of fout. Het model zou potentiële oplossingen genereren, die vervolgens werden geëvalueerd door een geautomatiseerd scoresysteem. Het zou dan zijn nadering herhalen totdat het de hoogste score behaalde, allemaal zonder menselijke tussenkomst. Dit efficiënte, zelfgestuurde proces stelde het bedrijf in staat om een krachtig AI-systeem te bouwen met een fractie van de investering die zijn concurrenten vereist.
Beperkingen en zorgen over het model
Hoewel de benadering van het leerleer van de versterking kosteneffectief bleek, heeft het ook enkele beperkingen. De output van het model verbergen vaak de onderliggende redeneerstappen, waardoor het voor een mens moeilijk is om te begrijpen hoe het tot een conclusie kwam. Op de vraag om zijn redenering te geven, genereerde R1 extreem lange en moeilijk leesbare uitleg-soms meer dan 10.000 woorden-die schakelden tussen Engels en Chinees. De techniek worstelde ook met taken die nuance of subjectiviteit vereisen, waar er geen enkel “correct” antwoord is. Afgezien van de technische beperkingen, heeft de ontwikkeling van het model in China bezorgdheid geuit over potentiële invloed van de overheid. Uit een recent rapport van de Washington Post bleek dat R1 vooroordelen vertoonde in zijn uitgangen. Onderzoekers ontdekten dat het model zou weigeren code te genereren met grote beveiligingsfouten wanneer de aanwijzingen geleidelijke groepen door de Chinese autoriteiten als gevoelig worden beschouwd. Op de vraag om code te maken voor entiteiten zoals Tibet, Taiwan of de religieuze beweging van Falun Gong, produceerde het model minder veilige versies met ingebouwde kwetsbaarheden. Dit suggereert dat het gedrag van het model kan worden gevormd door de politieke prioriteiten van de Chinese overheid.