Elon Musk heeft opnieuw de krantenkoppen gehaald door de wereld een glimp te geven van Cortex, X’s AI-trainingssupercomputer die momenteel in aanbouw is bij Tesla’s Giga Texas-fabriek. In een video die zowel ontzagwekkend als surrealistisch is, liet Musk zien hoe een coole $1 miljard aan AI GPU’s er in werkelijkheid uitziet. Maar als dat nog niet genoeg was om de monden van tech-enthousiastelingen te laten openvallen, ging Musk onlangs naar zijn platform, X, om te onthullen dat de echte showstopper—Colossus, een 100.000 H100-trainingscluster—officieel online is gekomen.
Wat zijn AI-clusters precies?
Een AI-cluster als een gigantisch brein dat bestaat uit duizenden computers die samenwerken om enorme hoeveelheden informatie razendsnel te verwerken. In plaats van één enkele computer gebruiken clusters als Colossus duizenden gespecialiseerde machines, elk uitgerust met krachtige chips (GPU’s genaamd), ontworpen om de ongelooflijk complexe berekeningen uit te voeren die nodig zijn voor kunstmatige intelligentie.
Deze clusters trainen AI-modellen door ze enorme hoeveelheden data te voeren. Vergelijk het met het lesgeven aan een student door hem in korte tijd duizenden boeken te laten lezen.
Alle details over xAI’s Colossus
Musk hield zijn opscheprechten niet in en beweerde dat Colossus “het krachtigste AI-trainingssysteem ter wereld” is. Nog indrukwekkender is het feit dat dit gigantische project “van begin tot eind” in slechts 122 dagen werd gebouwd.
Gezien de omvang en complexiteit is dat geen geringe prestatie. Servers voor het xAI-cluster werden geleverd door Dell en Supermicro, en hoewel Musk geen exacte bedragen noemde, schatten de schattingen dat de kosten tussen de duizelingwekkende $ 3 en $ 4 miljard liggen.
Dit weekend is de @xAI team bracht ons Colossus 100k H100-trainingscluster online. Van begin tot eind was het in 122 dagen gedaan.
Colossus is het krachtigste AI-trainingssysteem ter wereld. Bovendien zal het in een paar maanden verdubbelen in omvang tot 200k (50k H200s).
Uitstekend…
— Elon Musk (@elonmusk) 2 september 2024
Nu wordt het echt interessant. Hoewel het systeem operationeel is, is het onduidelijk hoeveel van deze clusters vandaag de dag volledig functioneel zijn. Dat is niet ongewoon bij systemen van deze omvang, aangezien ze uitgebreide debugging en optimalisatie vereisen voordat ze op volle toeren draaien. Maar als je te maken hebt met iets op de schaal van Colossus, telt elk detail en zelfs een fractie van het volledige potentieel kan de meeste andere systemen overtreffen.
De toekomst ziet er nog spannender uit. Colossus zal naar verwachting twee keer zo groot worden, met plannen om nog eens 100.000 GPU’s toe te voegen, verdeeld over Nvidia’s huidige H100-eenheden en de langverwachte H200-chips. Deze upgrade is vooral bedoeld voor de training van xAI’s nieuwste en meest geavanceerde AI-model, Grok-3, dat de grenzen wil verleggen van wat wij als mogelijk beschouwen op het gebied van AI.
Bron van de hoofdafbeelding: BoliviaIntelligente/Unsplash