Het Chinese AI-lab DeepSeek heeft de release aangekondigd van zijn DeepSeek-R1-Lite-Preview-model, waarvan het beweert dat het concurreert met het o1-model van OpenAI. Het nieuwe model biedt een uniek kenmerk: transparantie in het redeneringsproces, waardoor gebruikers de stapsgewijze probleemoplossende methoden kunnen zien. Deze aankondiging komt twee maanden nadat OpenAI zijn programma lanceerde o1-voorbeeld model, wat een groeiende concurrentie in de AI-redeneerruimte benadrukt.
DeepSeek lanceert een redeneermodel om te wedijveren met OpenAI
DeepSeek-R1-Lite-Preview is toegankelijk via een webchatbot, DeepSeek-chatwaar gebruikers kunnen communiceren met het model, beperkt tot 50 berichten per dag. Hoewel gedetailleerde benchmarks en een modelkaart nog moeten worden vrijgegeven, geven vroege beoordelingen aan dat het redeneermodel prestaties vertoont die vergelijkbaar zijn met OpenAI’s benchmarks voor AIME- en MATH-taken. DeepSeek beweert dat het een ultramoderne nauwkeurigheid van 91,6% bereikt op de MATH-benchmark.
De introductie van DeepSeek-R1 komt op het moment dat traditionele schaalwetten in AI, die suggereren dat het vergroten van data en rekenkracht de prestaties zullen verbeteren, afnemende rendementen beginnen te vertonen. Als reactie daarop zoeken bedrijven naar nieuwe benaderingen, zoals de onderliggende redeneermodellen zoals DeepSeek-R1. In tegenstelling tot traditionele modellen breiden redeneermodellen hun computationele verwerking tijdens gevolgtrekking uit om de besluitvormingsmogelijkheden te verbeteren.
Ondanks de veelbelovende kenmerken houdt het nieuwe model zich ook aan strikte censuurprotocollen die gebruikelijk zijn in de Chinese AI-technologie. Waarnemingen bevestigden dat DeepSeek-R1 gevoelige politieke onderwerpen vermijdt, zoals vragen over Xi Jinping of Taiwan. Gebruikers hebben succesvolle pogingen gemeld om deze beperkingen te omzeilen, waardoor het model in bepaalde scenario’s ongefilterde inhoud kan bieden. Dit aspect roept voortdurende vragen op over de balans tussen functionaliteit en naleving van de regelgeving voor AI-modellen die zijn ontwikkeld in regio’s met streng overheidstoezicht.
DeepSeek beweert dat zijn DeepSeek-R1-model – of specifieker, de DeepSeek-R1-Lite-Preview – overeenkomt met het o1-preview-model van OpenAI op twee prominente AI-benchmarks, AIME en MATH. AIME evalueert de prestaties van een model met behulp van andere AI-modellen, terwijl MATH het oplossen van problemen test met een verzameling woordproblemen. Het model heeft echter zijn tekortkomingen. Sommige gebruikers op X gewezen dat DeepSeek-R1, net als o1, voor uitdagingen staat met boter-kaas-en-eieren en andere op logica gebaseerde taken.
Vooruitkijkend is DeepSeek van plan open-sourceversies van zijn R1-modellen uit te brengen en de toegang via API’s uit te breiden, waarmee hij zijn inzet voor de open-source AI-gemeenschap voortzet. Het bedrijf wordt ondersteund door High-Flyer Capital Management, dat een strategie volgt om AI te integreren in handelsbeslissingen. De activiteiten van High-Flyer omvatten substantiële investeringen in hardware-infrastructuur, met clusters van Nvidia A100 GPU’s voor modeltraining.
Uitgelichte afbeeldingscredits: Diepzoeken