NVIDIA Magnum IO

La piattaforma di accelerazione IO per il data center

Accelerare l'IO nel data center
Prestazioni per L'IA ovunque

Le aziende stanno perfezionando i dati e diventando produttori di intelligence. I data center stanno diventando fabbriche IA abilitate dal computing accelerato, che ha reso l'elaborazione un milione di volte più veloce. Ma, il computing accelerato richiede anche IO accelerato. NVIDIA Magnum IO™ è l'architettura per i data center IO paralleli e intelligenti. Massimizza lo storage, la rete e le comunicazioni multi-nodo e multi-GPU per le applicazioni più importanti del mondo, utilizzando modelli linguistici di grandi dimensioni, sistemi recommender, immagini, simulazione e ricerca scientifica.

Stack di ottimizzazione NVIDIA Magnum IO

NVIDIA Magnum IO utilizza IO di storage, IO di rete IO, calcolo in rete e gestione IO per semplificare e accelerare il movimento, l'accesso e la gestione dei dati per sistemi multi-GPU e multi-nodo. Magnum IO supporta le librerie NVIDIA CUDA-X™ e sfrutta al meglio una gamma di topologie hardware NVIDIA GPU e NVIDIA Networking per ottenere un throughput ottimale e una bassa latenza.

 [Blog per sviluppatori] Magnum IO - Accelerazione dell'IO nel data center moderno

Stack di ottimizzazione Magnum IO

IO di storage

Nei sistemi multi-GPU e multi-nodo, la lentezza della CPU, le prestazioni a thread singolo complicano l'accesso ai dati da dispositivi di storage locali o remoti. Con l'accelerazione dell'IO di storage, la GPU ignora la memoria della CPU e del sistema e accede allo storage remoto tramite schede NIC 8x 200 GB/sec, raggiungendo fino a 1,6 TB/s di banda di archiviazione raw.

Tecnologie incluse:

IO di rete

Le reti NVIDIA NVLink®, NVIDIA Quantum InfiniBand, Ethernet e l'accelerazione dell'IO basata su RDMA riducono il carico di IO, ignorando la CPU e abilitando trasferimenti diretti alle GPU ad alta velocità.

Tecnologie incluse:

Calcolo in rete

Il calcolo in rete garantisce l'elaborazione all'interno della rete, eliminando la latenza prodotta con l'attraversamento degli end-point i gli ostacoli lungo il percorso. Le unità di elaborazione dati (DPU) introducono il calcolo di rete software-defined e accelerato da hardware, che include motori di elaborazione dati preconfigurati e motori programmabili.

Tecnologie incluse:

Gestione IO

Per fornire ottimizzazioni IO su calcolo, rete e storage, gli utenti necessitano di telemetria profonda e tecniche di risoluzione dei problemi avanzate. Le piattaforme di gestione Magnum IO consentono agli operatori di ricerca e data center industriali di eseguire in modo efficiente, monitorare, gestire e mantenere preventivamente i fabric moderni.

Tecnologie incluse:

Accelerare l'IO in tutte le applicazioni del data center

NVIDIA Magnum IO si interfaccia con le librerie NVIDIA per HPC e IA per accelerare l'IO in una vasta gamma di casi d'uso, dall'IA alla visualizzazione scientifica.

  • Analisi dei dati
  • Calcolo ad alte prestazioni
  • Deep learning (training/inferenza)
  • Rendering e visualizzazione
Analisi dei dati

Analisi dei dati

Oggi, la scienza dei dati e il machine learning (ML) sono i principali segmenti di calcolo usati del mondo. Miglioramenti anche modesti dell'accuratezza dei modelli di ML predittivi possono tradursi in miliardi di dollari in termini di profitti. 

Librerie Magnum IO e strumenti di analisi dei dati

Per migliorare la precisione, la libreria RAPIDS™ Accelerator dispone di un sistema shuffle Apache Spark integrato basato su UCX che può essere configurato per sfruttare le funzionalità di comunicazione GPU-GPU e RDMA. Insieme a NVIDIA Networking, il software NVIDIA Magnum IO, Spark 3.0 accelerato da GPU e RAPIDS, la piattaforma per data center NVIDIA è in grado di accelerare enormi carichi di lavoro a livelli mai visti prima in termini di prestazioni ed efficienza.

GPUDirect Storage (GDS) è stato integrato con RAPIDS per lettori ORC, Parquet, CSV e Avro. RAPIDS CuIO ha ottenuto un miglioramento delle prestazioni di 4,5 volte con i file Parquet utilizzando GDS su flussi di lavoro su larga scala.

Adobe raggiunge una velocità 7 volte superiore nel training dei modelli con Spark 3.0 su Databricks per un risparmio del 90%

Calcolo ad alte prestazioni

Calcolo ad alte prestazioni

Per sfruttare le scoperte di nuova generazione, gli scienziati usano simulazioni per comprendere al meglio il comportamento delle molecole e trovare nuovi farmaci, analizzano dati fisici per individuare nuove fondi di energia e dati atmosferici per prevedere eventi metereologici estremi. Le principali applicazioni e simulazioni sfruttano NVIDIA Magnum IO per accelerare i tempi di analisi. Magnum IO integra motori di accelerazione a livello hardware e bilanciamento intelligente, come RDMA, NVIDIA GPUDirect e NVIDIA SHARP, rafforzando l'elevata larghezza di banda e la latenza ultra bassa di NVIDIA InfiniBand e le GPU di rete NVLink. 

In ambienti multi-tenant, le applicazioni utente potrebbero non essere a conoscenza di interferenze indiscriminate da parte del traffico di applicazioni vicine. Magnum IO, sulla più recente piattaforma NVIDIA Quantum-2 InfiniBand, offre funzionalità nuove e migliorate per mitigare l'impatto negativo sulle prestazioni di un utente. Ciò offre risultati ottimali, nonché le implementazioni HPC ed ML più efficienti su qualsiasi scala.

Librerie Magnum IO e app HPC

Le prestazioni VASP migliorano significativamente quando MPI viene sostituito con NCCL. UCX accelera le applicazioni di calcolo scientifico, come VASP, Chroma, MIA-AI, Fun3d, CP2K e Spec-HPC2021, per tempi di esecuzione di wall-clock più veloci.  

NVIDIA HPC-X aumenta la disponibilità della CPU, la scalabilità delle applicazioni e l'efficienza del sistema per migliorare le prestazioni applicative, distribuite da vari ISV HPC. NCCL, UCX e HPC-X fanno tutti parte dell'HPC-SDK.

I Fast Fourier Transforms (FTT) sono ampiamente utilizzati in una vasta gamma di settori, dalla dinamica molecolare, l'elaborazione del segnale, fino alla fluidodinamica computazionale (CFD) e alle applicazioni multimediali wireless e ML. Utilizzando la libreria NVIDIA Shared Memory (NVSHMEM)™, cuFFTMp è indipendente dall'implementazione MPI e funziona a una velocità estrema, fattore fondamentale in quanto le prestazioni possono variare significativamente da un MPI all'altro.

La libreria Qualitative Data Analysis (QUDA) Lattice Quantum Chromodynamics può utilizzare NVSHMEM per le comunicazioni per ridurre i sovraccarichi della sincronizzazione tra CPU e GPU e migliorare la sovrapposizione di calcolo e comunicazione. Questo riduce la latenza e migliora enormemente la scalabilità.

 Multi-nodo, multi-GPU: uso di NVIDIA cuFFTMp FFT su larga scala

 Massima visualizzazione del volume interattivo - La simulazione a 150 TB dell'atterraggio su Marte della NASA

Deep learning

Deep learning

La classe emergente di modelli HPC exascale e da trilioni di parametri IA per attività come l'IA conversazionale sovrumana richiede mesi di training, anche su supercomputer. Adattare questo processo alla velocità dell'azienda per completare il training in pochi giorni richiede una comunicazione fluida e ad alta velocità tra ogni GPU in un cluster di server, in modo da poter scalare le prestazioni. La combinazione di NVIDIA NVLink, NVIDIA NVSwitch, le librerie NVIDIA Magnum IO e la forte scalabilità tra server offre velocità di training con IA fino a 9 volte su modelli MoE (Mixture of Experts). Questo consente ai ricercatori di addestrare modelli massicci alla velocità del business.

Librerie Magnum IO e integrazioni di deep learning

NCCL e altre librerie Magnum IO sfruttano in modo trasparente le più recenti GPU NVIDIA H100, NVLink, NVSwitch e le reti InfiniBand per fornire accelerazioni significative per i carichi di lavoro di deep learning, in particolare i sistemi recommender e il training di modelli linguistici di grandi dimensioni.  

  • I vantaggi di NCCL includono tempi più rapidi per la precisione del training dei modelli, raggiungendo al contempo una larghezza di banda di interconnessione vicina al 100% tra server in un ambiente distribuito.

  • Magnum IO GPUDirect Storage (GDS) è stato abilitato nella libreria DALI (data Loading Library) tramite l'operatore di lettura Numpy. Il GDS aumenta le prestazioni fino a 7,2 volte in termini di inferenza con deep learning con DALI rispetto a Numpy. 


Consentire ai ricercatori di continuare a superare i limiti del possibile con l'IA, richiede prestazioni potenti e scalabilità straordinaria. La combinazione tra rete NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch e lo stack software Magnum IO offre scalabilità istantanea per centinaia di migliaia di GPU che operano insieme.  

 Le prestazioni aumentano di 1,9 volte su LBANN con NVSHMEM rispetto a MPI

Rendering e visualizzazione

Rendering e visualizzazione

Le GPU vengono utilizzate per accelerare attività complesse e dispendiose in una vasta gamma di applicazioni, dalla grafica on-air alla ricostruzione di immagini stereoscopiche in tempo reale.  

La tecnologia NVIDIA GPUDirect for Video consente all'hardware di terze parti di comunicare in modo efficiente con le GPU NVIDIA e di ridurre al minimo i problemi storici legati alla latenza. Con NVIDIA GPUDirect for Video, i dispositivi IO vengono completamente sincronizzati con la GPU e la CPU per ridurre al minimo lo spreco di cicli nella copia di dati dei dati tra i driver dei dispositivi.

GPUDirect Storage (GDS) si integra con cuCIM, un toolkit espandibile progettato per fornire IO accelerato da GPU, computer vision ed elaborazione di immagini primarie per immagini N-dimensionali con particolare attenzione alla diagnostica per immagini in ambito biomedico.  

Nei due esempi seguenti, NVIDIA IndeX® viene utilizzato con GDS per accelerare la visualizzazione di set di dati molto grandi.

 Visualizzare immagini microscopiche di cellule viventi in tempo reale con NVIDIA Clara™ Holoscan

 Massima visualizzazione del volume interattivo - La simulazione a 150 TB dell'atterraggio su Marte della NASA

Iscriviti per ricevere novità e aggiornamenti su NVIDIA Magnum IO.