数据中心/云端

NVIDIA 在 MLPerf Training v4.0 中创造了新的生成式 AI 性能和规模记录

生成式 AI 模型具有多种用途,例如帮助编写计算机代码、创作故事、作曲、生成图像、制作视频等。而且,随着这些模型的大小不断增加,并且使用更多数据进行训练,它们将产生更高质量的输出。

构建和部署这些更智能的模型需要非常大的计算量,需要许多高性能处理器并行工作,并由高效、通用的软件进行编排。

例如,Meta 宣布训练其最新的 Llama 3 系列中的 大语言模型(LLMs),使用搭载 24,576 个 NVIDIA H100 Tensor Core GPUs 的人工智能集群。模型越大,Llama 3 70B 就需要总计6.4 million H100 GPU-hours进行训练。

预训练 LLM 后,可以通过各种技术包括模型微调,以提高特定任务的准确性。随着企业开始在各种应用中采用 LLM,LLM 微调正迅速成为核心行业工作负载。

AI 训练是一项全栈挑战,提供出色的端到端训练性能需要强大的处理器、快速内存、高带宽和低延迟网络以及优化软件的组合。

MLPerf Training已经成为衡量和评估端到端 AI 训练性能的行业标准基准。由 MLCommons 联盟开发的 MLPerf Training 工作负载经常更新,以反映最新的 AI 用例。在每一轮提交中,结果都经过严格的同行评审过程,以确保其在发布前的完整性和可靠性。

在 MLPerf Training v4.0 中,NVIDIA 创下了新的生成式 AI 训练性能记录,并继续为各种工作负载提供更高的性能。此性能使用完整的 NVIDIA 软件和硬件堆栈提供:

自上一轮 MLPerf 训练以来,每个组件都进行了进一步优化,以继续为用户提供更高的性能和价值。本文将详细介绍这些出色的结果。

MLPerf 训练 v4.0 更新

本轮 MLPerf 测试新增两项测试,以反映热门行业工作负载。

第一种方法是测量使用热门的低级适应(LoRA) 技术。LLM 微调使企业能够使用其专有数据自定义 LLM,从而提高特定用例的响应质量。

第二个新测试的重点是图形神经网络(GNN) 训练,基于 RGAT (关系图注意力网络) 的实现。GNN 正在应用于许多领域,包括药物研发、欺诈检测和推荐系统。

最新的 MLPerf Training v4.0 测试套件具有以下工作负载:

  • LLM 预训练 (GPT-3 175B)
  • LLM 微调 (使用 LoRA 的 Lama 2 70B)
  • 图形神经网络 (GNN)
  • 文本转图像 (Stable Diffusion v2)
  • 推荐系统 (DLRM-dcnv2)
  • 自然语言处理 (BERT-Large)
  • 图像分类 (ResNet-50)
  • 轻量级物体检测 (RetinaNet)
  • 生物医学图像分割 (3D U-Net)

由于 AI 是一个多样化且快速发展的领域,并且新的模型和应用程序不断被发明,因此 MLPerf 等行业基准必须涵盖广泛的用例,并与行业趋势同步发展。

NVIDIA 创造了新的 LLM 预训练性能和规模记录

MLPerf 包含基于 175B 参数语言模型(LLM)GPT-3 的预训练基准测试,这是一个由 OpenAI 开发的 175B 参数 LLM 工作负载,要求极高,对大规模 LLM 训练性能的良好测试,它强调加速计算平台的计算、网络和软件效率。

去年,在 MLPerf Training v3.0 中引入 GPT3-175B LLM 基准测试时,NVIDIA 首次提交了相关结果。我们使用 3584 H100 GPU 实现了 10.9 分钟的训练时间,这反映了当时的性能和规模记录。

在这轮 MLPerf 训练中,NVIDIA 将其提交规模扩大了三倍多,达到 11,616 个 H100 GPUs,并将性能提高了三倍多,达到 3.4 分钟,实现了近线性性能扩展。这些结果建立在 NVIDIA 上一轮创下的先前记录之上,其中 10,752 个 H100 GPUs 提供的训练时间仅为 3.9 分钟。

Bar chart shows the NVIDIA MLPerf Training submission on the GPT-3 175B test in June 2024 with 11,616 H100 GPUs delivering 3.2X more performance compared to the NVIDIA submission in June 2023 with 3,584 H100 GPUs.
图 1.NVIDIA 在 GPT-3 175B 工作负载上的最大性能

MLPerf 训练 v3.1 和 v4.0 结果来自www.mlperf.org,发布于 2024 年 6 月 12 日,来自以下条目:NVIDIA 3.0-2069、NVIDIA 4.0-0059。NVIDIA A100 结果以 512 A100 未经 MLCommons 验证。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家/地区的商标。所有权利保留。未经授权严禁使用。有关更多信息,请参阅 www.mlcommons.org

NVIDIA 本轮提交的出色结果反映了提交规模的扩大,以及进一步提升大规模交付性能的重大软件改进。

一个值得注意的例子是在 NVIDIA 语言模型(LLM)提交中首次使用 CUDA Graphs。随着训练扩展到数千个 GPUs,CPU 开销变得更加明显。使用 CUDA Graphs 可以通过单个 CPU 操作启动多个 GPU 操作,这也有助于最大限度地提供性能。

在使用 512 个 GPU 时,H100 的性能仅在一年内就提升了 27%,在一小时内完成了工作负载,每个 GPU 的利用率现已达到 904 TFLOP/s。

Bar chart shows the NVIDIA GPT-3 175B training performance at 512 GPU scale starting with A100 with 2022 software, to the NVIDIA results published using H100 in June 2023 and June 2024.
图 2.512 GPU 规模下的 NVIDIA GPT-3 175B 训练性能

MLPerf 训练 v3.1 和 v4.0 结果来自www.mlperf.org,发布于 2024 年 6 月 12 日,来自以下条目:NVIDIA 3.0-2069、NVIDIA 4.0-0059。搭载 512 A100 的 NVIDIA A100 结果未经 MLCommons 验证。MLPerf 名称和徽标均为 MLCommons Association 在美国和其他国家地区的商标。所有权利保留。未经授权不得使用。有关更多信息,请参阅 www.mlcommons.org

NVIDIA 软件堆栈的多项改进实现了这一非凡的成果:

  • 经过优化的 FP8 内核
  • 全新的 FP8 感知型分布式优化器
  • cuDNN 中经过优化的 FlashAttention 实现
  • 更有效地重叠执行数学运算和 GPU 到 GPU 的通信运算
  • H100 GPU 内的智能功率分配可更大限度地提高 Tensor Core 吞吐量

深入了解最后一项优化,大型语言模型(LLM)训练的一个显著特点是其高计算强度。特别是对于较小规模的 LLM 运行,与 GPU 到 GPU 通信相关的操作相比,math operations 可以弥补执行每个训练步骤所需的大部分时间。这导致高 Tensor Core 利用率和可以结果在 scenarios 中 Tensor Core 吞吐量受到 GPU 可用功率的限制。

在包含 512 个 H100 GPUs 的系统中,我们通过将功率从每个 H100 GPU 上的 L2 缓存内存重定向到流式多处理器 (SM)(其中包含 NVIDIA Hopper 第四代 Tensor Cores 等单元)来提高端到端性能。这是通过使用由 NVIDIA Management Libraries (NVML) 管理的 boost 滑块设置比率来完成的。

这使得 GPU 在相同功率预算下的工作频率更高,端到端性能提升了 4%。可以通过命令设置 boost 滑块nvidia-smi boost-slider –vboost 。有关此命令的更多信息(包括如何获取所有可能值),请运行 nvidia-smi boost-slider –vboost –help

通过使用相同的 GPU 提高性能,您可以在更短的时间内以更低的成本训练具有类似计算要求的模型,或者在类似的时间内以类似的成本训练计算更密集的模型。

NVIDIA 实现了更高的 LLM 微调性能

最新版本的 MLPerf 训练包括微调测试,该测试适用于LoRA提交到 Llama 2 由 Meta 开发的 70B 模型。LoRA 是一种参数高效微调的热门形式,在这篇博文

NVIDIA 平台在这项新测试中表现出色,可提供超快的单台服务器性能以及远超单台 GPU 服务器的可扩展性。

搭载 8 个 H100 GPUs 的单个 DGX H100 系统提供了出色的性能,仅用了 28 分钟就完成了测试。NVIDIA H200 Tensor Core GPU 使用 141 GB 的 HBM3e 内存升级了 NVIDIA Hopper 架构,将速度提高了 14%,将单节点训练时间缩短至 24.7 分钟。

NVIDIA 在本轮提交的作品中还展示了使用多达 1024 个 H100 GPU 对 LLM 进行微调的能力,在短短 1.5 分钟内就取得了出色的成绩,创下了性能和规模记录。

为高效扩展至 1024 H100 GPU,NVIDIA 提交的 LLM 微调基准测试利用了 NVIDIA NeMo 框架中提供的上下文并行功能。如需详细了解上下文并行以及使用 NeMo 框架时如何利用它,请参阅此页面

在本轮 NVIDIA LLM 微调提交中,我们使用了通过 cuDNN 提供的自注意力 FP8 实现。这在 8-GPU 规模下将性能提高了 15%.有关更多信息,请参阅使用 NVIDIA cuDNN 9 加速 Transformer

这些出色的结果补充了监督式微调 (SFT) 和人工反馈强化学习 (RLHF) 的出色性能在 NVIDIA Hopper GPU 上演示去年年底。

与 LoRA 等参数高效的方法相比,这些 fine-tuning 技术可以提供更高的准确性,但会以更高的 compute intensity 为代价。NVIDIA NeMo 框架支持多种 model customization 技术

NVIDIA 提高文本转图像生成式 AI 训练的标准

生成式 AI 正在改变视觉设计,并应用于营销和广告、媒体和娱乐、产品设计和原型设计以及建筑可视化等广泛的用例。

为表示视觉生成式 AI,MLPerf Training v4.0 包含基于 Stable Diffusion v2 的文本转图像基准测试。

基于 NVIDIA 在上一轮提交中创下的记录,NVIDIA 在本轮提交中通过大量软件增强功能,在相同提交规模下将性能提升高达 80%:

  • 使用全迭代 CUDA 图
  • 使用分布式优化器用于稳定扩散
  • 优化 cuDNN 和 cuBLAS 启发式算法,实现稳定扩散
  • … … 以及更多内容
Bar chart shows the NVIDIA MLPerf Training submission on the Stable Diffusion v2 test in November 2023 with 1,024 H100 GPUs delivering 1.8X more performance compared to the NVIDIA submission in November 2023 with the same H100 GPU count.
图 3、NVIDIA Stable Diffusion v2 在 1024 GPU 规模下的训练性能。

MLPerf 训练 v3.1 和 v4.0 结果检索自www.mlperf.org。于 2024 年 6 月 12 日发布,来自以下条目:NVIDIA 3.1-2050、NVIDIA 4.0-0053。MLPerf 名称和 logo 均为 MLCommons Association 在美国和其他国家地区的商标。保留所有权利。严禁未经授权使用。有关更多信息,请参阅 www.mlcommons.org

NVIDIA 加速图形神经网络训练

Graph Neural Networks(GNNs) 应用于多种应用,包括社会网络分析、药物发现、欺诈检测、零售中的推荐系统,甚至是分子化学。在 MLPerf 中添加 GNN 基准测试扩大了工作负载覆盖范围,以涵盖这一重要的神经网络类别。

NVIDIA 使用 8 个、64 个和 512 个 H100 GPU 提交了结果,将新的基准时间设置为在大规模配置中训练仅 1.1 分钟的记录。

NVIDIA 还使用 8 个 H200 Tensor Core GPU 提交了 8 个 GPU 结果,每个 GPU 均配备 141 GB 的 HBM3e,与同等规模的 H100 提交结果相比,性能提升 47%。

要点

NVIDIA 平台继续为生成式 AI 和更传统的 AI 工作负载等各种 AI 工作负载提供出色的性能和通用性。

NVIDIA 平台正在飞速发展。通过继续优化 NVIDIA 软件堆栈,客户可以享受更高的每个 GPU 性能,从而降低训练成本,并且能够高效扩展到更多 GPU,以训练要求更苛刻的模型。

NVIDIA 平台通过在整个堆栈(包括新芯片和系统)中的创新不断提供更高的性能。NVIDIA Blackwell该平台在 GTC 2024 上发布,旨在普及 trillion-parameter AI,NVIDIA GB200 NVL72与相同数量的 NVIDIA Hopper GPUs 相比,实时 trillion-parameter 推理速度提升高达 30 倍,trillion-parameter 训练速度提升高达 4 倍。

 

 

Tags