Vlak voor de start van het nieuwe jaar maakte de kunstmatige-intelligentiegemeenschap kennis met een potentiële doorbraak in modeltraining. Een team van onderzoekers van het Chinese AI-bedrijf DeepSeek heeft een papier waarin een nieuwe architectonische benadering wordt geschetst, genaamd Manifold-Constrained Hyper-Connections, of kortweg mHC. Deze nieuwe methodologie kan ingenieurs de mogelijkheid bieden om grote taalmodellen te bouwen en te schalen zonder de buitensporige rekenkosten en het kapitaal dat doorgaans vereist is.
DeepSeek veroverde een jaar geleden voor het eerst de culturele schijnwerpers met de release van R1. Dat model wedijverde met de mogelijkheden van OpenAI's o1, maar werd naar verluidt voor een fractie van de kosten getraind. De release kwam als een schok voor in de VS gevestigde ontwikkelaars, omdat het de veronderstelling in twijfel trok dat alleen enorme reserves aan kapitaal en hardware geavanceerde AI konden produceren. Het onlangs gepubliceerde mHC-papier, gehost op de preprint-server arXiv, zou kunnen dienen als het technologische raamwerk voor het aanstaande model van DeepSeek, R2. Het R2-model werd oorspronkelijk medio 2025 verwacht, maar werd uitgesteld, naar verluidt vanwege zorgen van CEO Liang Wenfeng over de prestaties en de beperkte toegang van China tot geavanceerde AI-chips.
Het nieuwe artikel probeert een complexe technische kloof te overbruggen die momenteel de schaalbaarheid van AI belemmert. Grote taalmodellen zijn gebouwd op neurale netwerken die zijn ontworpen om signalen over vele lagen heen te behouden. Naarmate het model echter groeit en er meer lagen worden toegevoegd, kan het signaal verzwakt of verslechterd raken, waardoor het risico groter wordt dat het in ruis verandert. De onderzoekers vergelijken dit met een spelletje ‘telefoon’: hoe meer mensen er bij de keten betrokken zijn, hoe groter de kans dat de oorspronkelijke boodschap verward of veranderd wordt. De belangrijkste technische uitdaging is het optimaliseren van de wisselwerking tussen plasticiteit en stabiliteit, waardoor signalen over zoveel mogelijk lagen behouden blijven zonder degradatie.
De auteurs van het artikel, waaronder CEO Liang Wenfeng, bouwden hun onderzoek op hyperverbindingen (HC's), een raamwerk dat in 2024 werd geïntroduceerd door onderzoekers van ByteDance. Standaard HC's diversifiëren de kanalen waarlangs neurale netwerklagen informatie delen, maar brengen het risico van signaalverlies met zich mee en brengen hoge geheugenkosten met zich mee, waardoor ze moeilijk op schaal te implementeren zijn. De mHC-architectuur van DeepSeek heeft tot doel dit op te lossen door de hyperconnectiviteit binnen een model te beperken. Deze aanpak behoudt de informatiecomplexiteit die mogelijk wordt gemaakt door HC's, terwijl de geheugenproblemen worden omzeild, waardoor zeer complexe modellen kunnen worden getraind op een manier die zelfs voor ontwikkelaars met beperkte middelen praktisch is.
Het debuut van het mHC-framework suggereert een spil in de evolutie van de AI-ontwikkeling. Tot voor kort was de heersende wijsheid in de sector van mening dat alleen de rijkste bedrijven het zich konden veroorloven grensmodellen te bouwen. DeepSeek blijft aantonen dat doorbraken kunnen worden bereikt door slimme techniek in plaats van door brute financiële kracht. Door dit onderzoek te publiceren heeft DeepSeek de mHC-methode beschikbaar gemaakt voor kleinere ontwikkelaars, waardoor de toegang tot geavanceerde AI-mogelijkheden mogelijk wordt gedemocratiseerd als deze architectuur succesvol blijkt in het verwachte R2-model.





