NVIDIA Magnum IO

Plateforme d’accélération E/S pour les Data Centers

Accélérez les performances d’E/S de votre Data Center
pour déployer vos applications d’IA n’importe où

À mesure qu’elles affinent leurs données, les entreprises deviennent de véritables fabricants d’intelligence. Leurs Data Centers, qui exploitent la puissance des GPU pour accélérer les calculs informatiques de manière significative, se transforment en usines d’IA. Le calcul accéléré par GPU requiert néanmoins des capacités avancées d’entrée/sortie (E/S) pour fournir le plus haut niveau de performance. NVIDIA Magnum IO™ est une architecture dédiée aux communications parallèles et intelligentes sur Data Center. Elle optimise le stockage, la mise en réseau et les communications multi-GPU et multi-nœuds pour les applications les plus importantes au monde qui s’appuient sur des modèles de langage complexes, des systèmes de recommandation, l’imagerie numérique, la simulation et la recherche scientifique.

Pile logicielle optimisée avec NVIDIA Magnum IO

La technologie NVIDIA Magnum IO s’appuie sur des modules logiciels pour le stockage, la mise en réseau, le calcul sur le réseau et la gestion des communications E/S pour simplifier et accélérer les transferts, l’accès et la gestion des données sur les systèmes multi-GPU et multi-nœuds. Magnum IO, qui prend en charge les bibliothèques NVIDIA CUDA-X™, exploite le plein potentiel des GPU et des topologies matérielles de mise en réseau de NVIDIA pour fournir un rendement optimal et une latence réduite.

 [Blog pour les développeurs] Magnum IO - Accélération des performances d’E/S des Data Centers modernes

Pile logicielle optimisée avec Magnum IO

Stockage

Dans les systèmes multi-GPU à nœuds multiples, le traitement CPU à thread unique peut impacter de manière critique l’accès aux données sur les périphériques de stockage locaux ou distants. Grâce à l’accélération des performances d’E/S pour le stockage, le GPU peut contourner le CPU et la mémoire système pour accéder à des capacités avancées de stockage via huit cartes d’interface réseau à 200 Go/s, offrant ainsi une bande passante brute de 1,6 To/s pour le stockage.

Technologies incluses :

Mise en réseau

NVIDIA NVLink®, NVIDIA Quantum InfiniBand, les réseaux Ethernet et l’accélération de l’accès direct à la mémoire distante (RDMA) permettent de réduire la charge des communications E/S en contournant le CPU et en permettant un transfert direct des données vers les GPU à un débit maximal.

Technologies incluses :

Calcul sur le réseau

La fonctionnalité de calcul sur le réseau assure un traitement optimal des données au sein du réseau, ce qui réduit la latence introduite par le transfert des données jusqu’aux points de terminaison. Nos processeurs de traitement des données (DPU), qui mettent en œuvre un processus de calcul défini par logiciel et accéléré matériellement, vous fournissent des moteurs préconfigurés pour le traitement des données ainsi que des moteurs librement programmables.

Technologies incluses :

Gestion des ressources E/S

Pour pouvoir bénéficier d’optimisations E/S relatives au calcul, au réseau et au stockage, les utilisateurs requièrent des techniques avancées de télémétrie et de dépannage. Les plateformes de gestion de Magnum IO permettent aux chercheurs et aux opérateurs de Data Center d’approvisionner, de surveiller, de superviser et de gérer de manière préventive la structure centrale des Data Centers modernes.

Technologies incluses :

Accélération des communications E/S pour les applications de Data Center

La technologie NVIDIA Magnum IO communique efficacement avec les bibliothèques de NVIDIA pour l’intelligence artificielle (IA) et le calcul haute performance (HPC) afin d'accélérer les communications E/S dans de nombreux cas d’utilisation allant des applications d’IA à la visualisation scientifique.

  • Analyse de données
  • Calcul haute performance
  • Deep Learning (entraînement et inférence)
  • Rendu et visualisation
Analyse de données

Analyse de données

Aujourd’hui, la science des données et l’apprentissage automatique (ML) sont les deux principales applications du calcul informatique. Des optimisations, même modestes, de la précision des modèles prédictifs de ML peuvent se traduire par d’importants gains financiers. 

Bibliothèques Magnum IO et outils d’analyse de données

Pour améliorer la précision globale, la bibliothèque RAPIDS™ dispose d’un module Apache Spark basé sur UCX, entièrement intégré et accéléré par GPU, qui peut être configuré de façon à mettre en œuvre des communications directes de GPU à GPU et des capacités RDMA avancées. Associée à la technologie NVIDIA de mise en réseau, à la technologie logicielle Magnum IO, à la solution Spark 3.0 accélérée par GPU et à RAPIDS, la nouvelle plateforme pour Data Center de NVIDIA a été spécialement conçue pour accélérer vos workflows de manière significative avec des performances et une efficacité sans précédent.

La bibliothèque GPUDirect Storage (GDS) a été intégrée à RAPIDS pour les lecteurs ORC, Parquet, CSV et Avro. RAPIDS CuIO fournit des performances jusqu’à 4,5 fois plus élevées avec les fichiers Parquet en ayant recours à GDS pour les workflows à grande échelle.

Adobe offre des performances 7 fois plus rapides pour l’entraînement des modèles d’IA avec Spark 3.0 sur Databricks pour une réduction des coûts de 90%

Calcul haute performance

Calcul haute performance

Pour réaliser de nouvelles découvertes scientifiques, les chercheurs ont aujourd’hui recours à des simulations avancées afin d'étudier des systèmes moléculaires complexes pour la découverte de médicaments, d'utiliser de nouveaux modèles physiques pour identifier de nouvelles sources d'énergie ou d'analyser de grands volumes de données atmosphériques pour mieux anticiper les phénomènes climatiques extrêmes. Les principaux outils de simulation et applications tirent parti de NVIDIA Magnum IO pour réduire les délais d’accès aux données. L’environnement logiciel Magnum IO met en œuvre des moteurs d’accélération au niveau matériel et un déchargement intelligent du trafic réseau grâce à des technologies telles que RDMA, NVIDIA GPUDirect et NVIDIA SHARP, tout en optimisant la bande passante et en réduisant la latence avec les solutions NVIDIA InfiniBand et NVIDIA NVLink pour l’optimisation de la mise en réseau.

Dans les environnements mutualisés, il se peut que certaines applications soient impactées par les interférences aléatoires du trafic avec des applications voisines. Magnum IO, qui s’appuie sur la plateforme NVIDIA Quantum-2 InfiniBand, dispose de nouvelles capacités avancées pour atténuer tout impact négatif sur les performances des utilisateurs. Cela permet d’obtenir des résultats optimaux et de déployer efficacement des applications HPC et ML à tous les niveaux.

Bibliothèques Magnum IO et applications HPC

Les performances de VASP augmentent de manière considérable suite au remplacement de MPI par NCCL. UCX accélère les applications de calcul scientifique telles que VASP, Chroma, MIA-AI, Fun3d, CP2K et Spec-HPC2021, contribuant ainsi à réduire les délais d’exécution des opérations Wall-Clock.  

NVIDIA HPC-X optimise la disponibilité du CPU, l’évolutivité des applications et l’efficacité du système pour accélérer les performances des applications de calcul haute performance, peu importe leur éditeur. NCCL, UCX et HPC-X font partie intégrante du kit de développement de NVIDIA pour le HPC.

Les calculs FFT (Fast Fourier Transforms) sont utilisés dans de nombreux domaines allant de la dynamique moléculaire au traitement des signaux en passant par la mécanique des fluides numérique, les réseaux sans fil et l’apprentissage automatique. Grâce à l’utilisation de NVSHMEM™ (bibliothèque de NVIDIA pour la mémoire partagée), cuFFTMp est indépendant de l’implémentation MPI et fonctionne au plus près de la vitesse de la lumière, ce qui est essentiel car les performances peuvent varier considérablement d’une MPI à l’autre.

QUDA (Qualitative Data Analysis) est une bibliothèque Lattice de chromodynamique quantique qui peut utiliser NVSHMEM pour le processus de communication afin de réduire les surcharges relatives à la synchronisation du CPU et du GPU, mais aussi d’améliorer les superpositions liées aux calculs et aux communications. Cela permet de réduire la latence et d’améliorer la mise à l’échelle.

 Approche multi-GPU et multi-nœuds : utilisation évolutive des FFT avec NVIDIA cuFFTMp

 Visualisation de volume à haut degré d’interactivité : simulation du programme d’atterrisseurs martiens de la NASA (150 To)

Deep Learning

Deep Learning

Une nouvelle génération d’applications HPC Exascale mobilise aujourd’hui des modèles d’IA dotés de plusieurs billions de paramètres pour exécuter des tâches dans des domaines comme l’IA conversationnelle. L’entraînement de ces modèles de pointe peut nécessiter plusieurs mois, y compris sur des supercalculateurs. Réduire ces délais d’entraînement à quelques jours seulement nécessite une communication fluide et rapide entre chaque GPU d’un même serveur, condition nécessaire à une mise à l’échelle probante des performances. La combinaison de NVIDIA NVLink, de NVIDIA NVSwitch, des bibliothèques NVIDIA Magnum IO et d’une forte évolutivité sur tous les serveurs offre un entraînement jusqu’à 9 fois plus rapide avec les modèles MoE (Mixture of Experts). Cela permet aux chercheurs d’entraîner des modèles complexes à une vitesse optimale.

Bibliothèques Magnum IO et intégrations Deep Learning

NCCL et d’autres bibliothèques Magnum IO exploitent en toute transparence les nouveaux GPU NVIDIA H100, mais aussi NVLink, NVSwitch et les réseaux InfiniBand afin d’accélérer les charges de travail de Deep Learning, notamment pour les systèmes de recommandation et l’entraînement de modèles de langage complexes.  

  • Les avantages de NCCL incluent des délais d’entraînement nettement plus courts ainsi qu’une bande passante d’interconnexion proche de 100% entre les serveurs dans un environnement distribué.

  • La technologie Magnum IO GPUDirect Storage (GDS) est mise en œuvre par la bibliothèque DALI (Data Loading Library) via l’opérateur du lecteur Numpy. Par rapport à l’outil Numpy de base, GDS fournit des performances jusqu’à 7,2 fois plus élevées pour les inférences Deep Learning avec DALI. 


Permettre aux chercheurs de repousser les limites de l’IA nécessite une puissance de calcul massive et une évolutivité sans précédent. La combinaison des technologies de mise en réseau NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch et de Magnum IO offre une évolutivité immédiate pour des centaines ou des milliers de GPU exploités conjointement.  

 Les performances augmentent de 1,9 fois sur LBANN avec NVSHMEM par rapport à MPI

Rendu et visualisation

Rendu et visualisation

Les GPU permettent d’accélérer des tâches complexes et chronophages pour une grande variété d’applications allant de la diffusion en direct à la reconstruction d’images stéréoscopiques en temps réel.  

La technologie NVIDIA GPUDirect pour la Vidéo permet aux solutions matérielles tierces de communiquer efficacement avec les GPU de NVIDIA tout en minimisant les problèmes de latence. Grâce à cette technologie novatrice, les dispositifs d’E/S sont parfaitement synchronisés avec le GPU et le CPU, de manière à minimiser les cycles de copie des données entre les pilotes matériels.

GPUDirect Storage (GDS) s’intègre à cuCIM, un kit d’outils extensible conçu pour fournir des fonctions primitives d’E/S, de vision par ordinateur et de traitement d’images tirant profit de l’accélération GPU pour les images à N dimensions, plus particulièrement dans le domaine de l’imagerie biomédicale.  

Dans les deux exemples suivants, le framework NVIDIA IndeX® est utilisé avec GDS pour accélérer la visualisation des grands ensembles de données.

 Visualisation d’images microscopiques de cellules vivantes en temps réel avec NVIDIA Clara™ Holoscan

 Visualisation de volume à haut degré d’interactivité : simulation du programme d’atterrisseurs martiens de la NASA (150 To)

Recevez des informations et des mises à jour sur NVIDIA Magnum IO.