NVIDIA Magnum IO

A Plataforma de Aceleração de I/O para o Data Center

Acelere o Desempenho de I/O de Data Center
para AI em Todos os Lugares

As empresas estão refinando seus dados e se tornando fabricantes de inteligência. Os data centers estão se tornando fábricas de AI habilitadas pela computação acelerada, o que agilizou a computação na escala de milhões. No entanto, a computação acelerada requer uma I/O acelerada. O NVIDIA Magnum IO™ é a arquitetura para I/O de data center paralelo e inteligente. Ele maximiza o armazenamento, a rede e as comunicações multi-GPUs e nós para as aplicações mais importantes do mundo, usando grandes modelos de linguagem, sistemas de recomendação, imagens, simulações e pesquisas científicas.

Pacote de Otimização do NVIDIA Magnum IO

O NVIDIA Magnum IO usa operações de I/O de armazenamento, I/O de rede, computação em rede e gerenciamento de I/O para simplificar e acelerar a movimentação, o acesso e o controle de dados para sistemas multi-GPU com múltiplos nós. O Magnum IO é compatível com bibliotecas NVIDIA CUDA-X™ e faz o melhor uso de uma série de topologias de hardware de rede da NVIDIA e GPUs NVIDIA para alcançar o melhor rendimento e baixa latência.

 [Blog do Desenvolvedor]: Magnum IO: Acelerando as Operações de I/O no Data Center Moderno

Pacote de Otimização do Magnum IO

I/O de Armazenamento

Em sistemas multi-GPU e com múltiplos nós, o baixo desempenho de apenas uma thread da CPU dificulta o acesso a dados de dispositivos de armazenamento locais ou remotos. Com a aceleração de I/O de armazenamento, a GPU dispensa a CPU e a memória do sistema, acessando o armazenamento remoto com 8 NICs de 200Gb/s e chegando até 1,6TB/s de largura de banda bruta de armazenamento.

Tecnologias Inclusas:

I/O de Rede

As redes NVIDIA NVLink®, NVIDIA Quantum InfiniBand, Ethernet e a aceleração das operações de I/O da rede baseada no RDMA reduzem a sobrecarga das operações de I/O, dispensando a CPU e possibilitando transferências de dados diretas para GPUs a velocidades de linha da rede.

Tecnologias Inclusas:

Computação em Rede

A computação em rede oferece o processamento dentro da rede, eliminando a latência introduzida pela passagem para os endpoints e todos os hops ao longo do caminho. As unidades de processamento de dados (DPUs - Data Processing Units) introduzem a computação definida por software e acelerada por hardware de rede, incluindo mecanismos pré-configurados de processamento de dados e mecanismos programáveis.

Tecnologias Inclusas:

Gerenciamento de I/O

Para oferecer otimizações de I/O em computação, rede e armazenamento, os usuários precisam de telemetria profunda e técnicas avançadas de solução de problemas. As plataformas de gerenciamento Magnum IO permitem que os operadores de data centers industriais e de pesquisa provisionem, monitorem, gerenciem e façam a manutenção preventiva do fabric do data center moderno.

Tecnologias Inclusas:

Acelerando as Operações de I/O entre Aplicações de Data Center

O NVIDIA Magnum IO se conecta às bibliotecas de computação de alto desempenho (HPC - High Performance Computing) e AI da NVIDIA para acelerar as operações de I/O em diversos casos de uso, da AI à visualização científica.

  • Análise de Dados
  • Computação de Alto Desempenho
  • Deep Learning (Treinamento/Inferência)
  • Renderização e Visualização
Análise de Dados

Análise de Dados

Hoje, a ciência de dados e a machine learning (ML) são os maiores segmentos de computação do mundo. Pequenas melhorias na precisão dos modelos preditivos de ML podem gerar bilhões de dólares no resultado final. 

Bibliotecas e Ferramentas de Análise de Dados do Magnum IO

Para aumentar a precisão, a biblioteca RAPIDS™ Accelerator oferece um embaralhamento acelerado do Apache Spark integrado baseado no UCX que pode ser configurado para aproveitar a comunicação entre GPUs e os recursos do RDMA. Com o NVIDIA Networking, o software NVIDIA Magnum IO, o Spark 3.0 acelerado por GPU e o RAPIDS, a plataforma de data center da NVIDIA está em uma posição única para acelerar enormes cargas de trabalho em níveis inéditos de desempenho e eficiência.

O GPUDirect Storage (GDS) foi integrado ao RAPIDS para leitores ORC, Parquet, CSV e Avro. O RAPIDS CuIO obteve uma melhoria de desempenho de até 4,5 vezes com arquivos Parquet usando GDS em workflows de grande escala.

Adobe Realiza Treinamento de Modelos 7 Vezes Mais Rápido com o Spark 3.0 no Databricks e Diminui 90% dos Custos

Computação de Alto Desempenho

Computação de Alto Desempenho

Para realizar descobertas de próxima geração, os cientistas contam com simulações que permitem compreender melhor moléculas complexas para a descoberta de medicamentos, a física para a busca de novas fontes de energia e dados atmosféricos para prever melhor padrões climáticos extremos. As principais aplicações e simulações usam o NVIDIA Magnum IO para agilizar o tempo necessário para obter insights. O Magnum IO expõe mecanismos de aceleração em nível de hardware e reduções de carga inteligentes, como os recursos RDMA, NVIDIA GPUDirect e NVIDIA SHARP, aprimorando a largura de banda alta e a latência ultrabaixa do NVIDIA InfiniBand e as GPUs de rede do NVIDIA NVLink. 

Em ambientes multilocatários, as aplicações de usuário podem não ter conhecimento de interferências indiscriminadas do tráfego de aplicações vizinhas. O Magnum IO, na plataforma NVIDIA Quantum-2 InfiniBand mais atual, apresenta recursos novos e aprimorados para reduzir o impacto negativo no desempenho do usuário. Isso oferece resultados ideais, bem como as implantações de HPC e ML mais eficientes em qualquer escala.

Bibliotecas do Magnum IO e Aplicações de HPC

O desempenho do VASP melhora significativamente quando a MPI é substituída pela NCCL. O UCX acelera aplicações de computação científica, como VASP, Chroma, MIA-AI, Fun3d, CP2K e Spec-HPC2021, para tempos de execução wall clock mais rápidos.  

O NVIDIA HPC-X aumenta a disponibilidade da CPU, a escalabilidade das aplicações e a eficiência do sistema para melhorar o desempenho das aplicações, que é distribuído por vários ISVs de HPC. NCCL, UCX e HPC-X fazem parte do HPC-SDK.

As Transformações Rápidas de Fourier (FFTs - Fast Fourier Transforms) são amplamente usadas em diversas áreas, desde dinâmica molecular, processamento de sinais e dinâmica de fluidos computacionais (CFD - Computational Fluid Dynamics) até aplicações de multimídia e ML sem fio. Ao usar a Biblioteca de Memória Compartilhada da NVIDIA (NVSHMEM™ - NVIDIA Shared Memory Library), o cuFFTMp é independente da implementação da MPI e opera mais próximo da velocidade da luz, o que é fundamental, pois o desempenho pode variar significativamente de uma MPI para outra.

A biblioteca de Cromodinâmica Quântica na Rede de Análise de Dados Qualitativa (QUDA - Qualitative Data Analysis) pode usar a NVSHMEM para comunicação para reduzir as sobrecargas da sincronização entre CPU e GPU e melhorar a sobreposição da computação e comunicação. Isso reduz as latências e melhora o dimensionamento forte.

 Multi-GPUs de Múltiplos Nós: Usando FFTs NVIDIA cuFFTMp em Escala

 Maior Visualização Volumétrica Interativa: Simulação de 150TB de Sonda de Marte da NASA

Deep Learning

Deep Learning

A classe emergente de HPC de exaescala e modelos AI com trilhões de parâmetros para tarefas como AI conversacional sobre-humana exigem meses de treinamento, mesmo em supercomputadores. Compactar isso na velocidade das empresas para concluir o treinamento em poucos dias requer uma comunicação perfeita e de alta velocidade entre todas as GPUs de um cluster de servidores, para que o desempenho possa ser dimensionado. A combinação do NVIDIA NVLink, do NVIDIA NVSwitch, das bibliotecas do NVIDIA Magnum IO e o dimensionamento forte entre servidores oferece acelerações de treinamento de AI de até 9 vezes em modelos do Mixture of Experts (MoE). Isso permite que os pesquisadores treinem modelos enormes na velocidade dos negócios.

Bibliotecas Magnum IO e Integrações de Deep Learning

A NCCL e outras bibliotecas Magnum IO aproveitam de forma transparente as mais atuais redes de GPU NVIDIA H100, NVLink, NVSwitch e InfiniBand para oferecer acelerações significativas para cargas de trabalho de deep learning, especialmente sistemas de recomendação e treinamento de modelos de linguagem grandes.  

  • As vantagens da NCCL incluem mais tempo para modelar precisão de treinamento, ao mesmo tempo que atingem uma largura de banda de interconexão de cerca de 100% entre servidores em um ambiente distribuído.

  • O Magnum IO GPUDirect Storage (GDS) foi ativado na Biblioteca de Carregamento de Dados (DALI- Data Loading Library) pelo operador leitor do Numpy. O GDS proporciona um aumento de desempenho de até 7,2 vezes mais de inferência de deep learning com DALI em comparação com o Numpy de linha de base. 


Permitir que os pesquisadores continuem se dedicando ao que é possível com a AI requer um desempenho poderoso e uma escalabilidade maciça. A combinação da rede NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch e o pacote de software Magnum IO oferece escalabilidade nativa completa para centenas a milhares de GPUs operando juntas.  

 Desempenho Aumenta 1,9 Vezes no LBANN com NVSHMEM vs. na MPI

Renderização e Visualização

Renderização e Visualização

As GPUs estão sendo usadas para acelerar tarefas complexas e demoradas em uma variedade de aplicações, desde gráficos em transmissões a reconstrução de imagens estereoscópicas em tempo real.  

A tecnologia do NVIDIA GPUDirect para Vídeo permite que o hardware de terceiros se comunique com eficiência com as GPUs da NVIDIA e minimize problemas históricos de latência. Com o NVIDIA GPUDirect para Vídeo, os dispositivos de I/O são totalmente sincronizados com a GPU e a CPU para minimizar ciclos de desperdício copiando dados entre drivers de dispositivos.

O GPUDirect Storage (GDS) integra-se ao cuCIM, um kit de ferramentas extensível criado para fornecer I/O acelerada por GPU, visão computacional e primitivos de processamento de imagens para imagens N-dimensionais com foco em imagens biomédicas.  

Nos dois exemplos a seguir, o NVIDIA IndeX® é usado com GDS para acelerar a visualização dos grandes conjuntos de dados envolvidos.

 Visualize Imagens de Microscopia de Células Vivas em Tempo Real com o NVIDIA Clara™ Holoscan

 Maior Visualização Volumétrica Interativa: Simulação de 150TB de Sonda de Marte da NASA

Inscreva-se para receber novidades e atualizações do NVIDIA Magnum IO.