OpenAI, het bedrijf achter ChatGPT, breidt zijn inspanningen uit om betrouwbare en kosteneffectieve rekenkracht voor zijn AI-modellen veilig te stellen. Door op maat gemaakt silicium te ontwikkelen, wil OpenAI de afhankelijkheid van externe leveranciers zoals NVIDIA verminderen, wiens GPU’s de AI-chipmarkt domineren. Volgens Reuters OpenAI werkt samen met Broadcom en heeft de productiecapaciteit veiliggesteld met Taiwan Semiconductor Manufacturing Company (TSMC), terwijl AMD-chips zijn opgenomen in de Microsoft Azure-opstelling.
OpenAI gaat aangepaste AI-chips bouwen met Broadcom en TSMC
OpenAI’s reis naar de ontwikkeling van zijn eigen AI-chips begon met het samenstellen van een team van ongeveer twintig mensen, waaronder topingenieurs die eerder aan de Tensor Processing Units (TPU’s) van Google werkten. Dit interne chipteam, geleid door ervaren ingenieurs als Thomas Norrie en Richard Ho, werkt nauw samen met Broadcom om op maat gemaakt silicium te ontwerpen en produceren dat zich zal concentreren op inferentiewerklasten. De chips zullen naar verwachting vanaf 2026 worden vervaardigd door TSMC, ’s werelds grootste halfgeleidergieterij.
Het doel achter de ontwikkeling van intern silicium is tweeledig: het veiligstellen van een stabiel aanbod van hoogwaardige chips en het beheersen van de escalerende kosten die gepaard gaan met AI-workloads. Hoewel de vraag naar trainingschips momenteel groter is, verwachten experts uit de industrie dat de behoefte aan inferentiechips de trainingschips zal overtreffen naarmate meer AI-toepassingen de implementatiefase bereiken. De expertise van Broadcom in het helpen bij het verfijnen van chipontwerpen voor massaproductie en het leveren van componenten die de gegevensbeweging optimaliseren, maakt het een ideale partner voor dit ambitieuze project.
OpenAI had eerder overwogen om zijn eigen chipgieterijen te bouwen, maar besloot uiteindelijk van die plannen af te zien vanwege de enorme kosten en tijd die daarvoor nodig waren. In plaats daarvan concentreert OpenAI zich op het ontwerpen van aangepaste chips, terwijl het voor de productie vertrouwt op TSMC.
Met AMD-chips voor diversificatie
Naast de samenwerking met Broadcom integreert OpenAI ook de nieuwe AMD MI300X chips in de Microsoft Azure-installatie. AMD introduceerde deze chips vorig jaar als onderdeel van zijn datacenteruitbreidingsstrategie, met als doel een deel van het marktaandeel te veroveren dat momenteel in handen is van NVIDIA. Door de opname van AMD-chips kan OpenAI zijn chipaanbod diversifiëren, waardoor de afhankelijkheid van één enkele leverancier wordt verminderd en de kosten effectiever kunnen worden beheerd.
AMD’s MI300X-chips maken deel uit van zijn streven om te concurreren met NVIDIA, dat momenteel meer dan 80% van het marktaandeel in AI-hardware in handen heeft. De MI300X-chips zijn ontworpen om AI-workloads te ondersteunen, met name op het gebied van inferentie- en modeltraining. Door AMD-chips aan zijn infrastructuur toe te voegen, hoopt OpenAI een deel van de aanbodbeperkingen te verlichten waarmee het te maken heeft gehad met NVIDIA GPU’s, waar veel vraag naar is en aan tekorten onderhevig is.
Deze strategische zet is ook een reactie op de stijgende computerkosten, die een grote uitdaging zijn geworden voor OpenAI. Het bedrijf heeft te maken gehad met hoge uitgaven voor hardware, elektriciteit en clouddiensten, wat dit jaar tot een verwacht verlies van 5 miljard dollar heeft geleid. Het verminderen van de afhankelijkheid van één enkele leverancier als NVIDIA, die zijn prijzen heeft verhoogd, zou OpenAI kunnen helpen deze kosten beter te beheersen en zijn AI-modellen zonder noemenswaardige vertragingen of onderbrekingen te blijven ontwikkelen.
De weg vooruit
Ondanks het ambitieuze plan om op maat gemaakte chips te ontwikkelen, staan er aanzienlijke uitdagingen te wachten voor OpenAI. Het bouwen van een interne siliciumoplossing kost tijd en geld, en de eerste op maat ontworpen chips zullen naar verwachting pas in 2026 in productie zijn. Deze tijdlijn plaatst OpenAI achter enkele van zijn grotere concurrenten zoals Google, Microsoft en Amazon, die al aanzienlijke vooruitgang geboekt bij het ontwikkelen van hun eigen aangepaste AI-hardware.
De samenwerking met Broadcom en TSMC betekent een belangrijke stap voorwaarts, maar benadrukt ook de moeilijkheden waarmee bedrijven worden geconfronteerd die proberen door te breken op de chipmarkt. Het vervaardigen van hoogwaardige AI-chips vereist aanzienlijke expertise, geavanceerde productiefaciliteiten en aanzienlijke investeringen. TSMC zal als productiepartner een sleutelrol spelen bij het bepalen van het succes van deze onderneming. De tijdlijn voor de productie van chips kan nog steeds veranderen, afhankelijk van factoren als de complexiteit van het ontwerp en de productiecapaciteit.
Een andere uitdaging ligt in het verwerven van talent. OpenAI is voorzichtig met het wegpikken van talent van NVIDIA, omdat het een goede relatie met de chipmaker wil behouden, vooral omdat het nog steeds sterk afhankelijk is van NVIDIA voor zijn huidige generatie AI-modellen. De Blackwell-chips van NVIDIA zullen naar verwachting cruciaal zijn voor komende AI-projecten, en het onderhouden van een positieve relatie is essentieel voor OpenAI’s voortdurende toegang tot deze geavanceerde GPU’s.
Waarom OpenAI speciaal silicium nodig heeft
De belangrijkste drijfveer achter het aangepaste chipinitiatief van OpenAI zijn de kosten. Het trainen en inzetten van grote AI-modellen zoals GPT-4 vereist enorme rekenkracht, wat zich vertaalt in hoge infrastructuurkosten. De jaarlijkse computerkosten van OpenAI zullen naar verwachting een van de grootste uitgaven zijn. Het bedrijf verwacht dit jaar een verlies van $5 miljard, ondanks het genereren van $3,7 miljard aan inkomsten. Door zijn eigen chips te ontwikkelen hoopt OpenAI deze kosten onder controle te krijgen, waardoor het een concurrentievoordeel krijgt op de drukke AI-markt.
Op maat gemaakt silicium biedt ook prestatievoordelen. Door chips specifiek af te stemmen op de behoeften van AI-inferentie, kan OpenAI de prestaties optimaliseren, de efficiëntie verbeteren en de latentie verminderen. Dit is vooral belangrijk voor het leveren van hoogwaardige, realtime reacties in producten als ChatGPT. Hoewel de GPU’s van NVIDIA zeer capabel zijn, kan op maat ontworpen hardware meer gerichte optimalisatie bieden, wat mogelijk kan leiden tot aanzienlijke winst in prestaties en kostenefficiëntie.
De aanpak van het combineren van interne en externe chipoplossingen biedt OpenAI meer flexibiliteit bij het opschalen van zijn infrastructuur. Door met Broadcom te werken aan aangepaste ontwerpen en tegelijkertijd AMD- en NVIDIA-GPU’s te integreren, positioneert OpenAI zichzelf om beter om te gaan met de uitdagingen van de grote vraag en de beperkingen van de toeleveringsketen. Deze gediversifieerde aanpak zal het bedrijf helpen zich aan te passen aan veranderende marktomstandigheden en ervoor te zorgen dat het over de computermiddelen beschikt die nodig zijn om de grenzen van AI te blijven verleggen.
Uitgelichte afbeeldingscredits: Andrew Neel/Unsplash