Nvidia haalt 200 teraFLOP geëmuleerde FP64 voor wetenschappelijk computergebruik

Nvidia gebruikt software-emulatie om de prestaties van zijn AI-versnellers voor high-performance computing (HPC) en wetenschappelijke toepassingen te verbeteren met dubbele precisie drijvende-kommaberekening (FP64). Het register. Deze strategie komt op het moment dat het bedrijf zijn Rubin GPU's onthult, die 33 teraFLOPS aan maximale FP64-prestaties leveren, een afname van 1 teraFLOP ten opzichte van de H100 GPU. Nvidia's CUDA-bibliotheken kunnen tot 200 teraFLOPS aan FP64-matrixprestaties bereiken via software-emulatie, wat een toename van 4,4x betekent ten opzichte van de hardwaremogelijkheden van de Blackwell-versnellers. Dan Ernst, senior directeur supercomputerproducten van Nvidia, verklaarde dat de nauwkeurigheid van emulatie overeenkomt met of groter is dan die van tensor core-hardware. Nicholas Malaya, een AMD-fellow, twijfelde echter aan de effectiviteit van geëmuleerde FP64 in natuurwetenschappelijke simulaties in vergelijking met benchmarks. FP64 blijft van cruciaal belang voor wetenschappelijk computergebruik vanwege het dynamische bereik, dat meer dan 18,44 biljoen unieke waarden kan uitdrukken, in tegenstelling tot de 256 unieke waarden van FP8 die in AI-modellen worden gebruikt. HPC-simulaties vereisen, in tegenstelling tot AI-workloads, hoge precisie om de verspreiding van fouten te voorkomen die tot systeeminstabiliteit kan leiden, aldus Malaya. Het concept van het gebruik van gegevenstypen met lagere precisie om FP64 te emuleren dateert uit het midden van de 20e eeuw. Begin 2024 publiceerden onderzoekers van de technologische instituten in Tokio en Shibaura een artikel waarin werd aangetoond dat FP64-matrixbewerkingen konden worden opgesplitst in meerdere INT8-bewerkingen op de tensorkernen van Nvidia, waardoor prestaties die beter waren dan de oorspronkelijke prestaties konden worden bereikt. Deze methode, bekend als het Ozaki-schema, vormt de basis voor Nvidia's FP64-emulatiebibliotheken, die eind vorig jaar werden uitgebracht. Ernst bevestigde dat de geëmuleerde berekening de FP64-precisie handhaaft en alleen verschilt in de hardware-uitvoeringsmethode. Moderne GPU's zijn voorzien van tensorkernen met lage precisie, zoals die in Rubin, die 35 petaFLOPS aan dichte FP4-rekenkracht bieden. Deze kernen zijn ruim 1.000x sneller dan FP64-specifieke componenten. Ernst legde uit dat de efficiëntie van deze kernen met lage precisie leidde tot het verkennen van het gebruik ervan voor FP64-emulatie, in lijn met de historische trend in supercomputing om gebruik te maken van beschikbare hardware. AMD heeft bedenkingen geuit over de nauwkeurigheid van FP64-emulatie. Malaya merkte op dat de aanpak goed presteert voor goed geconditioneerde numerieke systemen, zoals High Performance Linpack (HPL) benchmarks, maar kan haperen in minder geconditioneerde systemen die te vinden zijn in de materiaalkunde of verbrandingscodes. Hij benadrukte ook dat de algoritmen van Nvidia voor FP64-emulatie niet volledig IEEE-compatibel zijn en geen rekening houden met nuances zoals positieve versus negatieve nullen of “geen getal”-fouten. Deze discrepanties kunnen ertoe leiden dat kleine fouten zich verspreiden en de uiteindelijke resultaten beïnvloeden. Malaya voegde eraan toe dat het Ozaki-schema het geheugenverbruik voor FP64-matrices ongeveer verdubbelt. AMD's aankomende MI430X zal specifiek de hardwareprestaties met dubbele en enkele precisie verbeteren met behulp van zijn chipletarchitectuur. Ernst erkende enkele beperkingen, maar stelde dat kwesties als positieve/negatieve nullen voor de meeste HPC-beoefenaars niet van cruciaal belang zijn. Nvidia heeft aanvullende algoritmen ontwikkeld om problemen zoals niet-getallen en oneindige getallen te detecteren en te beperken. Hij verklaarde dat de toegenomen geheugenoverhead verband houdt met de bewerking, en niet met de hele applicatie, waarbij typische matrices een paar gigabytes bedragen. Ernst voerde aan dat IEEE-complianceproblemen zich vaak niet voordoen bij matrixvermenigvuldiging, vooral niet bij DGEMM-operaties. Emulatie komt vooral ten goede aan een subset van HPC-applicaties die afhankelijk zijn van DGEMM-bewerkingen (Dense General Matrix Multiply). Malaya schatte dat 60% tot 70% van de HPC-werklasten, vooral die welke afhankelijk zijn van vector-FMA, weinig tot geen voordeel zien van emulatie. Voor vector-zware werkbelastingen zoals computationele vloeistofdynamica moeten Nvidia's Rubin GPU's langzamere FP64 vectorversnellers gebruiken binnen hun CUDA-kernen. Ernst wierp tegen dat theoretische FLOPS zich niet altijd vertalen in bruikbare prestaties, vooral wanneer de geheugenbandbreedte als knelpunt fungeert. Rubin, met 22 TB/s HBM4-geheugen, zal naar verwachting betere prestaties in de echte wereld leveren bij deze workloads, ondanks langzamere vector-FP64-prestaties. De haalbaarheid van FP64-emulatie zal worden getest naarmate nieuwe supercomputers met Nvidia's Blackwell- en Rubin-GPU's operationeel worden. De algoritmen kunnen in de loop van de tijd verbeteren, gezien hun softwaregebaseerde karakter. Malaya gaf aan dat AMD ook FP64-emulatie op chips zoals de MI355X onderzoekt via softwarevlaggen. Hij benadrukte dat IEEE-naleving de aanpak zou valideren door de consistentie van de resultaten met speciaal silicium te garanderen. Malaya suggereerde dat de gemeenschap een reeks applicaties zou moeten opzetten om de betrouwbaarheid van emulatie in verschillende gebruiksscenario's te evalueren.

Uitgelicht beeldtegoed

Tags: Nvidia