NVIDIA Magnum IO

Платформа для ускорения ввода-вывода в дата-центре

Ускорьте ввод-вывод в дата-центре
Производительность для задач ИИ в любом месте

Компании уточняют свои данные и становятся производителями интеллекта. Дата-центры превращаются в фабрики искусственного интеллекта с ускоренными вычислениями, которые ускоряют расчеты в миллионы раз. Однако для ускоренных вычислений требуется ускоренный ввод-вывод. NVIDIA Magnum IO™ — это архитектура для параллельного интеллектуального ввода-вывода в дата-центре. Она максимизирует скорость обмена данными между системой хранения данных, сетью и системами с несколькими узлами и графическими процессорами для самых важных приложений в мире, использующих масштабные языковые модели, рекомендательные системы, визуализацию, моделирование и научные исследования.

Стек оптимизации ввода-вывода данных NVIDIA Magnum IO

NVIDIA Magnum IO использует решения для ввода-вывода в системах хранения данных, сетях, внутрисетевых вычислениях и для управления вводом-выводом для упрощения и ускорения доступа, передачи, а также управления данными в системах с несколькими графическими процессорами и узлами. Magnum IO поддерживает библиотеки NVIDIA CUDA-X™ и максимально эффективно использует графические процессоры и сетевую аппаратную топологию NVIDIA, достигая оптимальной пропускной способности и низкой задержки.

[Блог разработчиков] Magnum IO: ускорение ввода-вывода в современном дата-центре

Стек оптимизации ввода-вывода данных Magnum IO

Ввод-вывод в системе хранения данных

В системах с несколькими узлами и графическими процессорами медленный процессор и однопоточная работа затрудняют доступ к данным на локальных или удаленных устройствах хранения. Благодаря ускорению ввода-вывода графический процессор не задействует системную память и процессор и получает доступ к удаленной системе хранения с помощью 8 сетевых адаптеров 200 Гбит/с, обеспечивающих пропускную способность до 1,6 ТБ/с.

Технологии:

Система хранения данных NVIDIA Magnum IO GPUDirect^® ›

NVIDIA NVMe SNAP^™ ›

Ввод-вывод в сетях

Сети NVIDIA NVLink®, NVIDIA Quantum InfiniBand и Ethernet и архитектура RDMA для ускорения ввода-вывода данных в сети снижают нагрузку на систему ввода-вывода, не задействуя процессор и обеспечивая прямую передачу данных между GPU.

Технологии:

Data Plane Development Kit ›

NVIDIA GPUDirect RDMA ›

NVIDIA® HPC-X® ›

NVIDIA Collective Communication Library (NCCL) ›

NVIDIA Shared Memory Library ›

UCX ›

Ускоренная коммутация и обработка пакетов^® (ASAP²) ›

Внутрисетевые вычисления

Внутрисетевые вычисления обеспечивают обработку данных в сети, устраняя задержки при переходе к конечным точкам и на других этапах. Блоки обработки данных (DPU) обеспечивают программно-определяемые сетевые вычисления с аппаратным ускорением, включая предварительно настроенные и программируемые движки обработки данных.

Технологии:

NVIDIA^® BlueField DPU^® ›

Интерфейс сопоставления тегов MPI ›

NVIDIA^® Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)^™ ›

Управление вводом-выводом

Чтобы обеспечить оптимизацию ввода-вывода для вычислений, сетей и систем хранения данных, пользователям необходима телеметрия и современные технологии устранения неполадок. Платформы для управления Magnum IO позволяют администраторам научных и промышленных дата-центров эффективно управлять современными инфраструктурами и профилкатически обслуживать их.

Технологии:

NVIDIA NetQ^™ ›

NVIDIA^® UFM^® ›

Ускорение ввода-вывода в приложениях дата-центра

NVIDIA Magnum IO взаимодействует с библиотеками высокопроизводительных вычислений (HPC) и искусственного интеллекта (ИИ) NVIDIA и ускоряет ввод-вывод в широком спектре задач: от ИИ до научной визуализации.

Анализ данных
Высокопроизводительные вычисления
Глубокое обучение (тренировка/инференс)
Рендеринг и визуализация

Анализ данных

Сегодня обработка и анализ данных и машинное обучение (ML) — это самые требовательные к вычислениям области. Даже небольшие улучшения точности моделей машинного обучения для прогнозирования могут в итоге сэкономить миллиарды долларов.

Библиотеки Magnum IO и инструменты для анализа данных

Чтобы повысить точность, библиотека RAPIDS™ Accelerator оснащена встроенным ускоренным механизмом перетасовок Apache Spark на базе UCX, который можно настроить для коммуникации между GPU и использования возможностей RDMA. Оснащенная сетевыми решениями NVIDIA, ПО NVIDIA Magnum IO, GPU-ускоренным Spark 3.0 и NVIDIA RAPIDS™ платформа NVIDIA для дата-центров призвана ускорить эти ресурсоемкие задачи, обеспечивая непревзойденную производительность и энергоэффективность.

Система хранения данных GPUDirect Storage (GDS) интегрирована с RAPIDS для приложений для чтения ORC, Parquet, CSV и Avro. RAPIDS CuIO обеспечивает повышение производительности до 4,5 раз при работе с файлами Parquet с использованием GDS в крупномасштабных рабочих процессах.

Adobe в 7 раз ускоряет обучение моделей при помощи Spark 3.0 на базе Databricks и снижает затраты до 90%

Высокопроизводительные вычисления

Моделирование помогает ученым совершать новые научные открытия: глубже изучать сложные ��олекулы для создания лекарств, физические процессы — для поиска источников энергии и атмосферные данные — для разработки точных прогнозов экстремальных погодных условий. Ведущие инструменты моделирования и приложения используют NVIDIA Magnum IO, чтобы ускорить получение информации. Magnum IO предоставляет движки для аппаратного ускорения и технологии интеллектуальной разгрузки, например RDMA, NVIDIA GPUDirect и NVIDIA SHARP, а также поддерживает высокую пропускную способность и сверхнизкую задержку для подключенных к сетям NVIDIA InfiniBand и NVIDIA NVLink графических процессоров.

В средах с несколькими арендаторами пользователи могут не осознавать нерегулируемое вмешательство трафика соседних приложений. Magnum IO на новой платформе NVIDIA Quantum-2 InfiniBand предлагает улучшенные возможности для уменьшения негативного воздействия на производительность. Это обеспечивает оптимальные результаты и наиболее эффективное развертывание приложений для высокопроизводительных вычислений (HPC) и машинного обучения в любом масштабе.

Библиотеки Magnum IO и приложения HPC

Производительность VASP существенно повышается при замене MPI на NCCL. UCX ускоряет работу приложений для научных вычислений, таких как VASP, Chroma, MIA-AI, Fun3d, CP2K и Spec-HPC2021, для ускорения работы системных часов.

NVIDIA HPC-X повышает доступность процессора, масштабируемость приложений и эффективность системы, что ведет к увеличению производительности приложений, которые распространяются различными независимыми поставщиками программного обеспечения для высокопроизводительных вычислений. NCCL, UCX и HPC-X являются частью набора средств разработки HPC-SDK.

Быстрые преобразования Фурье (БПФ) широко используются в самых разных областях: от молекулярной динамики, обработки сигналов и вычислительной гидродинамики (CFD) до беспроводных мультимедийных приложений и приложений машинного обучения. Благодаря использованию NVIDIA Shared Memory Library (NVSHMEM)™ cuFFTMp не зависит от реализации MPI и работает со скоростью, близкой к скорости света. Это имеет очень большое значение, поскольку производительность может значительно различаться между разными MPI.

Библиотека квантовой хромодинамики на решетке для качественного анализа данных (QUDA) может использовать NVSHMEM для обмена данными, чтобы уменьшить нагрузку, связанную с синхронизацией процессора и GPU и улучшить перекрытие вычислений и обмена данными. Это уменьшает задержки и улучшает существенное масштабирование.

Системы с несколькими узлами и графическими процессорами: использование БПФ NVIDIA cuFFTMp в большом масштабе

Крупнейшая интерактивная визуализация: моделирование модуля NASA на Марсе, 150 ТБ

Глубокое обучение

Развивающийся класс экзафлопсных высокопроизводительных вычислений и моделей искусственного интеллекта с триллионами параметров для таких задач, как сверхчеловеческий разговорный ИИ, требует месяцев обучения даже на суперкомпьютерах. Сжатие этого процесса до скорости ведения бизнеса для завершения обучения в течение нескольких дней требует высокоскоростной и бесперебойной связи между каждым графическим процессором в кластере серверов, чтобы обеспечить возможность масштабирования их производительности. Сочетание NVIDIA NVLink, NVIDIA NVSwitch, библиотек NVIDIA Magnum и надежного масштабирования в рамках всех серверов обеспечивает ускорение обучения модели ИИ до 9 раз на моделях смешения мнений экспертов (MoE). Это позволяет исследователям обучать массивные модели со скоростью ведения бизнеса.

Библиотеки Magnum IO и интеграция с глубоким обучением

NCCL и другие библиотеки Magnum IO прозрачно используют новейший графический процессор NVIDIA H100, NVLink, NVSwitch и сети InfiniBand, чтобы обеспечить значительное ускорение задач глубокого обучения, в частности работы рекомендательных систем и обучения масштабных языковых моделей.

К преимуществам NCCL относится более быстрое моделирование точности обучения при достижении почти 100-процентной пропускной способности между серверами в распределенной среде.

Система хранения данных Magnum IO GPUDirect Storage (GDS) была включена в библиотеку загрузки данных (DALI) через оператор чтения Numpy. GDS увеличивает производительность инференса глубокого обучения с помощью DALI до 7,2 раза по сравнению с базовым значением для Numpy.

Чтобы ученые могли и дальше расширять границы возможного с помощью ИИ, им необходима высокая производительность и масштабируемость. Сочетание сетевых технологий NVIDIA Quantum-2 InfiniBand, NVLink, NVSwitch и программного стека Magnum IO обеспечивает не требующую дополнительных настроек масштабируемость для сотен и тысяч графических процессоров, работающих вместе.

Производительность выше в 1,9 раза на LBANN с NVSHMEM по сравнению с MPI

Рендеринг и визуализация

Графические процессоры используются для ускорения сложных и трудоемких задач в ряде сфер применения: от вещательной графики до реконструкции стереоскопических изображений в реальном времени.

Технология NVIDIA GPUDirect для видео обеспечивает эффективное взаимодействие оборудования сторонних производителей с графическими процессорами NVIDIA и позволяет минимизировать традиционные проблемы с задержками. Благодаря NVIDIA GPUDirect для видео устройства ввода-вывода полностью синхронизируются с графическим и центральным процессорами, что позволяет свести к минимуму ненужные циклы копирования данных между драйверами устройств.

GPUDirect Storage (GDS) интегрируется с расширяемым набором инструментов cuCIM, разработанным для обеспечения ускоренного ввода-вывода с GPU, компьютерного зрения и примитивов обработки N-мерных изображений с упором на биомедицинскую визуализацию.

В следующих двух примерах NVIDIA IndeX® используется вместе с GDS для ускорения визуализации очень больших наборов данных.

Визуализируйте микроскопические изображения живых клеток в реальном времени с помощью NVIDIA Clara™ Holoscan

Крупнейшая интерактивная визуализация: моделирование модуля NASA на Марсе, 150 ТБ

Материалы

> NVIDIA Magnum IO на GitHub
> NVIDIAGPUDirect Storage: прямая магистраль между системой хранения данных и памятью GPU
> Ускорение ввода-вывода в современном дата-центре
> Ускорение коллективных операций на базе Teams в NVSHMEM 2.0 с помощью NCCL
> Оптимизация перемещения данных в приложениях с поддержкой GPU с помощью среды разработки NVIDIA Magnum IO
> Ускорение работы облачных суперкомпьютеров с помощью Magnum IO
> Доступ к MOFED

Подпишитесь на новости и обновления NVIDIA Magnum IO.

NVIDIA Magnum IO

Ускорьте ввод-вывод в дата-центре Производительность для задач ИИ в любом месте

Стек оптимизации ввода-вывода данных NVIDIA Magnum IO

Ввод-вывод в системе хранения данных

Ввод-вывод в сетях

Внутрисетевые вычисления

Управление вводом-выводом

Ускорение ввода-вывода в приложениях дата-центра

Анализ данных

Библиотеки Magnum IO и инструменты для анализа данных

Высокопроизводительные вычисления

Глубокое обучение

Рендеринг и визуализация

Материалы

ПОЛУЧАЙТЕ НОВОСТИ О MAGNUM IO

NVIDIA GPUDirect Storage (GDS)

NVIDIA NVMe Software-Defined Network Accelerated Processing (SNAP)

Data Plane Development Kit (DPDK)

NVIDIA GPUDirect RDMA (GDR)

NVIDIA HPC-X

NVIDIA Collective Communication Library (NCCL)

NVIDIA Shared Memory Library (NVSHMEM)

UCX

Ускоренная коммутация и обработка пакетов® (ASAP2)

Блок обработки данных (DPU) NVIDIA® BlueField DPU®

Интерфейс сопоставления тегов MPI

NVIDIA SHARP

NVIDIA NetQ

NVIDIA Unified Fabric Manager (UFM)

Ускорьте ввод-вывод в дата-центре
Производительность для задач ИИ в любом месте

Ускоренная коммутация и обработка пакетов^® (ASAP²)

Блок обработки данных (DPU) NVIDIA^® BlueField DPU^®