DeepSeek heeft details onthuld van een nieuw model genaamd “MODEL1” via recente updates van de FlashMLA-codebasis op GitHub. De identificatie “MODEL1” verschijnt 28 keer in 114 bestanden in de repository, wat de openbaarmaking markeert op de eenjarige verjaardag van de R1-release van het bedrijf. Deze ontwikkeling volgt op berichten dat DeepSeek van plan is zijn volgende generatie V4-model rond midden februari 2026 uit te brengen, samenvallend met het nieuwe maanjaar. Analyse van de bijgewerkte codebase door ontwikkelaars geeft aan dat MODEL1 een andere architectuur heeft dan DeepSeek-V3.2, met de codenaam “V32” in de repository. Discrepanties in de codelogica suggereren veranderingen in de lay-out van de sleutelwaardecache, de verwerking van sparsity en de decodering van FP8-dataformaten, wat wijst op herstructurering voor geheugenoptimalisatie en rekenefficiëntie. Onderzoekers van de LocalLLaMA-gemeenschap van Reddit opgemerkt de FlashMLA-broncode-update voegde uitgebreide MODEL1-ondersteuning toe, inclusief compatibiliteit met Nvidia's aanstaande Blackwell-architectuur (SM100) en de huidige Hopper-chips. De veranderingen laten naar verluidt zien dat MODEL1 terugkeert naar een uniforme 512-standaarddimensie en “Value Vector Position Awareness” -functies introduceert, naast mogelijke implementaties van DeepSeeks onlangs gepubliceerde “Engram” voorwaardelijke geheugensysteem. De FlashMLA-repository, die de Multi-Head Latent Attention-decoderingskernel van DeepSeek huisvest, geoptimaliseerd voor Nvidia Hopper GPU's, was de bron van de technische aanwijzingen. Verwacht wordt dat het V4-model van DeepSeek de Engram-architectuur zal integreren, wat het efficiënt ophalen van contexten van meer dan een miljoen tokens mogelijk maakt door gebruik te maken van een opzoeksysteem voor fundamentele feiten in plaats van ze opnieuw te berekenen door middel van berekeningen. Interne tests door DeepSeek-medewerkers suggereren dat V4 beter zou kunnen presteren dan concurrerende modellen van Anthropic en OpenAI op codeerbenchmarks, vooral met lange codeprompts. De MODEL1-onthulling vindt plaats nu DeepSeek een jaar na zijn R1-debuut in januari 2025 nadert. De R1-release resulteerde volgens ITPro in een daling van de marktwaarde van Nvidia met $ 593 miljard op één dag. Het R1-model van DeepSeek kostte naar verluidt minder dan $ 6 miljoen om te trainen en behaalde prestaties die vergelijkbaar waren met of zelfs beter dan OpenAI's o1-model op het gebied van wiskunde en coderen. Het bedrijf bracht vervolgens V3.1 uit in augustus en V3.2 in december, waarbij van V3.2 werd beschreven dat het prestaties bood die gelijkwaardig waren aan die van OpenAI's GPT-5. DeepSeek heeft geen officieel commentaar gegeven op MODEL1 of een specifieke releasetiming voor V4 bevestigd.





