NVIDIA HGX H100 è un server per AI e high performance computing (HPC) basato su sezioni GPU e potenziato dalla NVIDIA Hopper Architecture.
La mission di NVIDIA è accelerare il lavoro dei Da Vinci e degli Einstein del nostro tempo e consentire loro di risolvere le grandi sfide della società. Con la complessità dell’intelligenza artificiale (AI), del calcolo ad alte prestazioni (HPC) e dell’analisi dei dati in aumento in modo esponenziale, gli scienziati hanno bisogno di una piattaforma informatica avanzata in grado di aumentare la velocità di milioni di X in un solo decennio per risolvere queste sfide straordinarie.
Per rispondere a questa esigenza, è stato presentato l’NVIDIA HGX H100, un componente fondamentale del server GPU basato sull’architettura NVIDIA Hopper. Questa piattaforma all’avanguardia offre in modo sicuro prestazioni elevate con bassa latenza e integra uno stack completo di funzionalità dal networking all’elaborazione su scala di data center, la nuova unità di elaborazione.
HGX H100 8-GPU
L’HGX H100 8-GPU rappresenta l’elemento fondamentale della nuova generazione di server GPU Hopper. Ospita otto GPU H100 Tensor Core e quattro NVSwitch di terza generazione. Ogni GPU H100 ha più porte NVLink di quarta generazione e si collega a tutti e quattro gli NVSwitch. Ogni NVSwitch è uno switch completamente non bloccante che collega completamente tutte le otto GPU H100 Tensor Core.
Questa topologia completamente connessa di NVSwitch consente a qualsiasi H100 di comunicare con qualsiasi altro H100 contemporaneamente. In particolare, questa comunicazione funziona alla velocità bidirezionale NVLink di 900 gigabyte al secondo (GB/s), che è più di 14 volte la larghezza di banda dell’attuale bus PCIe Gen4 x16.
NVSwitch di terza generazione fornisce anche una nuova accelerazione hardware per operazioni collettive con riduzioni in rete multicast e NVIDIA SHARP. In combinazione con la maggiore velocità di NVLink, la larghezza di banda effettiva per le comuni operazioni collettive di intelligenza artificiale come all-reduce aumenta di 3 volte rispetto all’HGX A100. L’accelerazione NVSwitch dei collettivi riduce anche significativamente il carico sulla GPU.
Questa topologia completamente connessa di NVSwitch consente a qualsiasi H100 di comunicare con qualsiasi altro H100 contemporaneamente. In particolare, questa comunicazione funziona alla velocità bidirezionale NVLink di 900 gigabyte al secondo (GB/s), che è più di 14 volte la larghezza di banda dell’attuale bus PCIe Gen4 x16.
NVSwitch di terza generazione fornisce anche una nuova accelerazione hardware per operazioni collettive con riduzioni in rete multicast e NVIDIA SHARP. In combinazione con la maggiore velocità di NVLink, la larghezza di banda effettiva per le comuni operazioni collettive di intelligenza come all-reduce aumenta di 3 volte rispetto all’HGX A100. L’accelerazione NVS dei collettivi riduce anche il carico sulla GPU.
I nodi di sistema costruiti con HGX H100 8-GPU con supporto di rete NVLink possono connettersi completamente ad altri sistemi tramite i cavi LinkX Octal Small Form Factor Pluggable (OSFP) e il nuovo switch NVLink esterno. Questa connessione consente fino a un massimo di 256 domini NVLink GPU.
Per modelli AI e HPC più avanzati, il sistema offre più nodi di memoria GPU aggregata per adattarsi. Ad esempio, un modello di raccomandazione per l’apprendimento profondo (DLRM) con terabyte di tabelle incorporate, un modello di elaborazione del linguaggio naturale Large Mix-of-Experts (MoE) e HGX H100 con NVLink-Network alleggerisce il collo di bottiglia della comunicazione risultando la soluzione migliore per questa classe di carico di lavoro.
La figura 4 del white paper sull’architettura della GPU NVIDIA H100 mostra l’ulteriore incremento delle prestazioni consentito dalla rete NVLink.
I diagrammi HPC, AI Inference e AI Training mostrano tutti l’aumento delle prestazioni extra consentito dalla rete NVLink.
Per le prestazioni, l’ingombro, le criticità ambientali ed il prezzo, il sistema si presta ad essere inserito all’interno di una struttura enterprise per fornire servizi di AI e HPC su cloud e on-demand.
Join our groups on Telegram…