NVIDIA Magnum IO

A Plataforma de Aceleração de I/O para o Data Center

Acelere o Desempenho de I/O de Data Center
para AI em Todos os Lugares

As empresas estão refinando seus dados e se tornando fabricantes de inteligência. Os data centers estão se tornando fábricas de AI habilitadas pela computação acelerada, o que agilizou a computação na escala de milhões. No entanto, a computação acelerada requer uma I/O acelerada. O NVIDIA Magnum IO™ é a arquitetura para I/O de data center paralelo e inteligente. Ele maximiza o armazenamento, a rede e as comunicações multi-GPUs e nós para as aplicações mais importantes do mundo, usando grandes modelos de linguagem, sistemas de recomendação, imagens, simulações e pesquisas científicas.

Pacote de Otimização do NVIDIA Magnum IO

O NVIDIA Magnum IO usa operações de I/O de armazenamento, I/O de rede, computação em rede e gerenciamento de I/O para simplificar e acelerar a movimentação, o acesso e o controle de dados para sistemas multi-GPU com múltiplos nós. O Magnum IO é compatível com bibliotecas NVIDIA CUDA-X™ e faz o melhor uso de uma série de topologias de hardware de rede da NVIDIA e GPUs NVIDIA para alcançar o melhor rendimento e baixa latência.

[Blog do Desenvolvedor]: Magnum IO: Acelerando as Operações de I/O no Data Center Moderno

I/O de Armazenamento

Em sistemas multi-GPU e com múltiplos nós, o baixo desempenho de apenas uma thread da CPU dificulta o acesso a dados de dispositivos de armazenamento locais ou remotos. Com a aceleração de I/O de armazenamento, a GPU dispensa a CPU e a memória do sistema, acessando o armazenamento remoto com 8 NICs de 200Gb/s e chegando até 1,6TB/s de largura de banda bruta de armazenamento.

Tecnologias Inclusas:

Armazenamento NVIDIA Magnum IO GPUDirect^® ›

NVIDIA NVMe SNAP^™ ›

I/O de Rede

As redes NVIDIA NVLink®, NVIDIA Quantum InfiniBand, Ethernet e a aceleração das operações de I/O da rede baseada no RDMA reduzem a sobrecarga das operações de I/O, dispensando a CPU e possibilitando transferências de dados diretas para GPUs a velocidades de linha da rede.

Tecnologias Inclusas:

Kit de Desenvolvimento do Plano de Dados ›

NVIDIA GPUDirect RDMA ›

NVIDIA® HPC-X® ›

Biblioteca de Comunicação Coletiva da NVIDIA (NCCL) ›

Biblioteca de Memória Compartilhada da NVIDIA ›

UCX ›

Processamento de Pacotes e Switch Acelerados^® (ASAP²) ›

Computação em Rede

A computação em rede oferece o processamento dentro da rede, eliminando a latência introduzida pela passagem para os endpoints e todos os hops ao longo do caminho. As unidades de processamento de dados (DPUs - Data Processing Units) introduzem a computação definida por software e acelerada por hardware de rede, incluindo mecanismos pré-configurados de processamento de dados e mecanismos programáveis.

Tecnologias Inclusas:

DPU NVIDIA^® BlueField^® ›

Correspondência de Tags da MPI ›

Protocolo de Agregação e Redução Hierárquica Escalonável (SHARP - Scalable Hierarchical Aggregation and Reduction Protocol)^™ da NVIDIA^® ›

Gerenciamento de I/O

Para oferecer otimizações de I/O em computação, rede e armazenamento, os usuários precisam de telemetria profunda e técnicas avançadas de solução de problemas. As plataformas de gerenciamento Magnum IO permitem que os operadores de data centers industriais e de pesquisa provisionem, monitorem, gerenciem e façam a manutenção preventiva do fabric do data center moderno.

Tecnologias Inclusas:

NVIDIA NetQ^™ ›

NVIDIA^® UFM^® ›

Acelerando as Operações de I/O entre Aplicações de Data Center

O NVIDIA Magnum IO se conecta às bibliotecas de computação de alto desempenho (HPC - High Performance Computing) e AI da NVIDIA para acelerar as operações de I/O em diversos casos de uso, da AI à visualização científica.

Análise de Dados
Computação de Alto Desempenho
Deep Learning (Treinamento/Inferência)
Renderização e Visualização

Análise de Dados

Hoje, a ciência de dados e a machine learning (ML) são os maiores segmentos de computação do mundo. Pequenas melhorias na precisão dos modelos preditivos de ML podem gerar bilhões de dólares no resultado final.

Bibliotecas e Ferramentas de Análise de Dados do Magnum IO

Para aumentar a precisão, a biblioteca RAPIDS™ Accelerator oferece um embaralhamento acelerado do Apache Spark integrado baseado no UCX que pode ser configurado para aproveitar a comunicação entre GPUs e os recursos do RDMA. Com o NVIDIA Networking, o software NVIDIA Magnum IO, o Spark 3.0 acelerado por GPU e o RAPIDS, a plataforma de data center da NVIDIA está em uma posição única para acelerar enormes cargas de trabalho em níveis inéditos de desempenho e eficiência.

O GPUDirect Storage (GDS) foi integrado ao RAPIDS para leitores ORC, Parquet, CSV e Avro. O RAPIDS CuIO obteve uma melhoria de desempenho de até 4,5 vezes com arquivos Parquet usando GDS em workflows de grande escala.

Adobe Realiza Treinamento de Modelos 7 Vezes Mais Rápido com o Spark 3.0 no Databricks e Diminui 90% dos Custos

Computação de Alto Desempenho

Para realizar descobertas de próxima geração, os cientistas contam com simulações que permitem compreender melhor moléculas complexas para a descoberta de medicamentos, a física para a busca de novas fontes de energia e dados atmosféricos para prever melhor padrões climáticos extremos. As principais aplicações e simulações usam o NVIDIA Magnum IO para agilizar o tempo necessário para obter insights. O Magnum IO expõe mecanismos de aceleração em nível de hardware e reduções de carga inteligentes, como os recursos RDMA, NVIDIA GPUDirect e NVIDIA SHARP, aprimorando a largura de banda alta e a latência ultrabaixa do NVIDIA InfiniBand e as GPUs de rede do NVIDIA NVLink.

Em ambientes multilocatários, as aplicações de usuário podem não ter conhecimento de interferências indiscriminadas do tráfego de aplicações vizinhas. O Magnum IO, na plataforma NVIDIA Quantum-2 InfiniBand mais atual, apresenta recursos novos e aprimorados para reduzir o impacto negativo no desempenho do usuário. Isso oferece resultados ideais, bem como as implantações de HPC e ML mais eficientes em qualquer escala.

Bibliotecas do Magnum IO e Aplicações de HPC

O desempenho do VASP melhora significativamente quando a MPI é substituída pela NCCL. O UCX acelera aplicações de computação científica, como VASP, Chroma, MIA-AI, Fun3d, CP2K e Spec-HPC2021, para tempos de execução wall clock mais rápidos.

O NVIDIA HPC-X aumenta a disponibilidade da CPU, a escalabilidade das aplicações e a eficiência do sistema para melhorar o desempenho das aplicações, que é distribuído por vários ISVs de HPC. NCCL, UCX e HPC-X fazem parte do HPC-SDK.

As Transformações Rápidas de Fourier (FFTs - Fast Fourier Transforms) são amplamente usadas em diversas áreas, desde dinâmica molecular, processamento de sinais e dinâmica de fluidos computacionais (CFD - Computational Fluid Dynamics) até aplicações de multimídia e ML sem fio. Ao usar a Biblioteca de Memória Compartilhada da NVIDIA (NVSHMEM™ - NVIDIA Shared Memory Library), o cuFFTMp é independente da implementação da MPI e opera mais próximo da velocidade da luz, o que é fundamental, pois o desempenho pode variar significativamente de uma MPI para outra.

A biblioteca de Cromodinâmica Quântica na Rede de Análise de Dados Qualitativa (QUDA - Qualitative Data Analysis) pode usar a NVSHMEM para comunicação para reduzir as sobrecargas da sincronização entre CPU e GPU e melhorar a sobreposição da computação e comunicação. Isso reduz as latências e melhora o dimensionamento forte.

Multi-GPUs de Múltiplos Nós: Usando FFTs NVIDIA cuFFTMp em Escala

Maior Visualização Volumétrica Interativa: Simulação de 150TB de Sonda de Marte da NASA

Deep Learning

A classe emergente de HPC de exaescala e modelos AI com trilhões de parâmetros para tarefas como AI conversacional sobre-humana exigem meses de treinamento, mesmo em supercomputadores. Compactar isso na velocidade das empresas para concluir o treinamento em poucos dias requer uma comunicação perfeita e de alta velocidade entre todas as GPUs de um cluster de servidores, para que o desempenho possa ser dimensionado. A combinação do NVIDIA NVLink, do NVIDIA NVSwitch, das bibliotecas do NVIDIA Magnum IO e o dimensionamento forte entre servidores oferece acelerações de treinamento de AI de até 9 vezes em modelos do Mixture of Experts (MoE). Isso permite que os pesquisadores treinem modelos enormes na velocidade dos negócios.

Bibliotecas Magnum IO e Integrações de Deep Learning

A NCCL e outras bibliotecas Magnum IO aproveitam de forma transparente as mais atuais redes de GPU NVIDIA H100, NVLink, NVSwitch e InfiniBand para oferecer acelerações significativas para cargas de trabalho de deep learning, especialmente sistemas de recomendação e treinamento de modelos de linguagem grandes.

As vantagens da NCCL incluem mais tempo para modelar precisão de treinamento, ao mesmo tempo que atingem uma largura de banda de interconexão de cerca de 100% entre servidores em um ambiente distribuído.

O Magnum IO GPUDirect Storage (GDS) foi ativado na Biblioteca de Carregamento de Dados (DALI- Data Loading Library) pelo operador leitor do Numpy. O GDS proporciona um aumento de desempenho de até 7,2 vezes mais de inferência de deep learning com DALI em comparação com o Numpy de linha de base.

Permitir que os pesquisadores continuem se dedicando ao que é possível com a AI requer um desempenho poderoso e uma escalabilidade maciça. A combinação da rede NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch e o pacote de software Magnum IO oferece escalabilidade nativa completa para centenas a milhares de GPUs operando juntas.

Desempenho Aumenta 1,9 Vezes no LBANN com NVSHMEM vs. na MPI

Renderização e Visualização

As GPUs estão sendo usadas para acelerar tarefas complexas e demoradas em uma variedade de aplicações, desde gráficos em transmissões a reconstrução de imagens estereoscópicas em tempo real.

A tecnologia do NVIDIA GPUDirect para Vídeo permite que o hardware de terceiros se comunique com eficiência com as GPUs da NVIDIA e minimize problemas históricos de latência. Com o NVIDIA GPUDirect para Vídeo, os dispositivos de I/O são totalmente sincronizados com a GPU e a CPU para minimizar ciclos de desperdício copiando dados entre drivers de dispositivos.

O GPUDirect Storage (GDS) integra-se ao cuCIM, um kit de ferramentas extensível criado para fornecer I/O acelerada por GPU, visão computacional e primitivos de processamento de imagens para imagens N-dimensionais com foco em imagens biomédicas.

Nos dois exemplos a seguir, o NVIDIA IndeX® é usado com GDS para acelerar a visualização dos grandes conjuntos de dados envolvidos.

Visualize Imagens de Microscopia de Células Vivas em Tempo Real com o NVIDIA Clara™ Holoscan

Maior Visualização Volumétrica Interativa: Simulação de 150TB de Sonda de Marte da NASA

Recursos

> GitHub do NVIDIA Magnum IO
> NVIDIA GPUDirect Storage: Um Caminho Direto Entre Armazenamento e Memória de GPU
> Acelerando as Operações de I/O no Data Center Moderno: I/O de Rede
> Acelerando Coletivos Baseados em Equipe NVSHMEM 2.0 Usando o NCCL
> Otimizando a Movimentação de Dados em Aplicações de GPU com o Ambiente de Desenvolvedor NVIDIA Magnum IO
> Acelerando a Supercomputação Nativa do Cloud com o Magnum IO
> Acesse o MOFED

Inscreva-se para receber novidades e atualizações do NVIDIA Magnum IO.

NVIDIA Magnum IO

Acelere o Desempenho de I/O de Data Center para AI em Todos os Lugares

Pacote de Otimização do NVIDIA Magnum IO

I/O de Armazenamento

I/O de Rede

Computação em Rede

Gerenciamento de I/O

Acelerando as Operações de I/O entre Aplicações de Data Center

Análise de Dados

Bibliotecas e Ferramentas de Análise de Dados do Magnum IO

Computação de Alto Desempenho

Deep Learning

Renderização e Visualização

Recursos

RECEBA AS ÚLTIMAS NOVIDADES SOBRE MAGNUM IO

Armazenamento NVIDIA GPUDirect (GDS)

Processamento Acelerado por Rede Definido por Software (SNAP) do NVIDIA NVMe

Kit de Desenvolvimento do Plano de Dados (DPDK)

NVIDIA GPUDirect RDMA (GDR)

NVIDIA HPC-X

Biblioteca de Comunicação Coletiva da NVIDIA (NCCL)

Biblioteca de Memória Compartilhada da NVIDIA (NVSHMEM)

UCX

Processamento de Pacotes e Switch Acelerados® (ASAP2)

Unidade de Processamento de Dados (DPU) NVIDIA® BlueField®

Correspondência de Tags da MPI

NVIDIA SHARP

NVIDIA NetQ

NVIDIA Unified Fabric Manager (UFM)

Acelere o Desempenho de I/O de Data Center
para AI em Todos os Lugares

Processamento de Pacotes e Switch Acelerados^® (ASAP²)

Unidade de Processamento de Dados (DPU) NVIDIA^® BlueField^®