Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

DeepSeek geeft R1 -model uit voor $ 294.000 op 512 H800 GPU’s

byAytun Çelebi
19 september 2025
in Artificial Intelligence
Home Artificial Intelligence

Het Chinese bedrijf Deepseek AI heeft zijn grote taalmodel, R1, dat werd getraind voor slechts $ 294.000 met behulp van 512 Nvidia H800 GPU’s. In een paper gepubliceerd in het tijdschrift Natuurhet bedrijf heeft gedetailleerd hoe het deze lage kosten heeft bereikt door een leermethode van proef-en-error versterking te gebruiken, waardoor het model concurrerende prestaties kan bereiken tegen rivalen met veel grotere budgetten, zoals OpenAI.

Hoe de diepte -leermethode van Deepseek werkt

De belangrijkste innovatie van Deepseek was om weg te gaan van het dure, mens-intensieve proces van het maken van geannoteerde datasets. Traditionele AI-modellen voor redeneringstaken worden vaak getraind op enorme datasets waarbij menselijke experts stapsgewijze oplossingen bieden voor complexe problemen. In plaats daarvan ontwikkelde Deepseek een autonoom leersysteem dat versterking van het leren van versterking gebruikt om de redeneervaardigheden van het model te verfijnen via een systeem van beloningen en straffen. Onderzoekers van Carnegie Mellon University vergeleken in een artikel bij het natuurpapier, het proces vergeleken met een kind dat een videogame leerde spelen.

“Terwijl het kind hun avatar door de gamewereld navigeert, leren ze door vallen en opstaan ​​dat sommige acties (zoals het verzamelen van gouden munten) punten verdienen, terwijl anderen (zoals tegenkomen in vijanden) hun score terugzetten op nul. In een soortgelijke ader kreeg Deepseek-R1 een hoge score toen het correct en een lage score beantwoordde toen het verkeerde antwoorden gaf.”

Deze methode was vooral effectief voor taken in wiskunde en programmering, waarbij antwoorden definitief kunnen worden geverifieerd als goed of fout. Het model zou potentiële oplossingen genereren, die vervolgens werden geëvalueerd door een geautomatiseerd scoresysteem. Het zou dan zijn nadering herhalen totdat het de hoogste score behaalde, allemaal zonder menselijke tussenkomst. Dit efficiënte, zelfgestuurde proces stelde het bedrijf in staat om een ​​krachtig AI-systeem te bouwen met een fractie van de investering die zijn concurrenten vereist.

Beperkingen en zorgen over het model

Hoewel de benadering van het leerleer van de versterking kosteneffectief bleek, heeft het ook enkele beperkingen. De output van het model verbergen vaak de onderliggende redeneerstappen, waardoor het voor een mens moeilijk is om te begrijpen hoe het tot een conclusie kwam. Op de vraag om zijn redenering te geven, genereerde R1 extreem lange en moeilijk leesbare uitleg-soms meer dan 10.000 woorden-die schakelden tussen Engels en Chinees. De techniek worstelde ook met taken die nuance of subjectiviteit vereisen, waar er geen enkel “correct” antwoord is. Afgezien van de technische beperkingen, heeft de ontwikkeling van het model in China bezorgdheid geuit over potentiële invloed van de overheid. Uit een recent rapport van de Washington Post bleek dat R1 vooroordelen vertoonde in zijn uitgangen. Onderzoekers ontdekten dat het model zou weigeren code te genereren met grote beveiligingsfouten wanneer de aanwijzingen geleidelijke groepen door de Chinese autoriteiten als gevoelig worden beschouwd. Op de vraag om code te maken voor entiteiten zoals Tibet, Taiwan of de religieuze beweging van Falun Gong, produceerde het model minder veilige versies met ingebouwde kwetsbaarheden. Dit suggereert dat het gedrag van het model kan worden gevormd door de politieke prioriteiten van de Chinese overheid.


Uitgelichte afbeeldingskrediet

Tags: diepeekUitgelaten

Related Posts

Elon Musk’s XAI Chatbot Grok heeft honderdduizenden particuliere gebruikersgesprekken blootgesteld

Elon Musk’s XAI Chatbot Grok heeft honderdduizenden particuliere gebruikersgesprekken blootgesteld

19 september 2025
Google Cloud voegt Lovable en Windsurf toe als AI Coding -klanten

Google Cloud voegt Lovable en Windsurf toe als AI Coding -klanten

19 september 2025
Zoom kondigt AI Companion 3.0 aan bij Zoomtopia

Zoom kondigt AI Companion 3.0 aan bij Zoomtopia

19 september 2025
Google’s Gemini AI bereikt gouden medaille in prestigieuze ICPC -coderingswedstrijd, beter dan de meeste menselijke teams

Google’s Gemini AI bereikt gouden medaille in prestigieuze ICPC -coderingswedstrijd, beter dan de meeste menselijke teams

18 september 2025
AI Labs investeren in RL -omgevingen voor autonome agenten

AI Labs investeren in RL -omgevingen voor autonome agenten

17 september 2025
AI Tool gebruikt mammogrammen om de 10-jarige hartgezondheid van vrouwen en het risico op kanker te voorspellen

AI Tool gebruikt mammogrammen om de 10-jarige hartgezondheid van vrouwen en het risico op kanker te voorspellen

17 september 2025

Recent Posts

  • DeepSeek geeft R1 -model uit voor $ 294.000 op 512 H800 GPU’s
  • NVIDIA besteedt meer dan $ 900 miljoen om Enfabrica CEO en Licentie AI Hardware -technologie in te huren
  • Roblox-game steelt een Brainrot verwijdert een gegenereerd personage, spraakte fan-terugslag en een debat over auteursrechten
  • Elon Musk’s XAI Chatbot Grok heeft honderdduizenden particuliere gebruikersgesprekken blootgesteld
  • Google Cloud voegt Lovable en Windsurf toe als AI Coding -klanten

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.