NVIDIA H200 Tensor コア GPU は、市場を一変させるパフォーマンスとメモリ機能で生成 AI と HPC ワークロードを強化します。HBM3e を搭載した初の GPU である H200 の大容量かつ高速のメモリは、HPC ワークロードのための科学コンピューティングを推進しながら、生成 AI と大規模言語モデル (LLM) の高速化を促進します。
1.9倍 の高速化
1.6倍 の高速化
110倍 の高速化
NVIDIA Hopper アーキテクチャをベースとする NVIDIA H200 は、毎秒 4.8 テラバイト (TB/s) で 141 ギガバイト (GB) の HBM3e メモリを提供する初の GPU です。これは、NVIDIA H100 Tensor コア GPU の約 2 倍の容量で、メモリ帯域幅は 1.4 倍です。H200 の大容量かつ高速なメモリは、生成 AI と LLM を加速し、エネルギー効率を向上させ、総所有コストを低減し、HPC ワークロードのための科学コンピューティングを前進させます。
参考仕様。変更される場合があります。
Llama2 13B: ISL 128, OSL 2K | Throughput | H100 SXM 1x GPU BS 64 | H200 SXM 1x GPU BS 128
GPT-3 175B: ISL 80, OSL 200 | x8 H100 SXM GPUs BS 64 | x8 H200 SXM GPUs BS 128
Llama2 70B: ISL 2K, OSL 128 | Throughput | H100 SXM 1x GPU BS 8 | H200 SXM 1x GPU BS 32.
進化し続ける AI の世界では、企業はさまざまな推論のニーズに対応するために LLM を利用しています。AI 推論アクセラレータは、大規模なユーザー ベース向けにデプロイする場合、最小の TCO で最高のスループットを実現する必要があります。
H200 は、Llama2 のような LLM を扱う場合、H100 GPU と比較して推論速度を最大 2 倍向上します。
メモリ帯域幅は、より高速なデータ転送を実現することで、ボトルネックとなる複雑な処理を削減するため、ハイパフォーマンス コンピューティング アプリケーションにとって極めて重要です。シミュレーション、科学研究、人工知能のようなメモリを大量に使用する HPC アプリケーションでは、 H200 の高いメモリ帯域幅が、データへのアクセスと操作を効率化し、CPU と比較して 110 倍の早さで結果を得ることができます。
準備段階で測定されたパフォーマンスです。変更される可能性があります
HPC MILC- dataset NERSC Apex Medium | HGX H200 4-GPU | dual Sapphire Rapids 8480
HPC Apps- CP2K: dataset H2O-32-RI-dRPA-96points | GROMACS: dataset STMV | ICON: dataset r2b5 | MILC: dataset NERSC Apex Medium | Chroma: dataset HMC Medium | Quantum Espresso: dataset AUSURF112 | 1x H100 | 1x H200.
NVIDIA H200 NVL はデータ センター内のスペースに制約があるお客様に最適な選択肢です。規模に関係なく、AI と HPC のあらゆるワークロードを高速化します。前世代と比較してメモリが 1.5 倍、帯域幅が 1.2 倍に増えたことで、お客様は数時間内に LLM をファインチューニングすることができ、1.8 倍の速さで LLM 推論を実行できます。
NVIDIA AI Enterprise と NVIDIA H200 の組み合わせにより、AI 対応プラットフォームの構築が簡素化され、本番環境に対応する生成 AI、コンピューター ビジョン、スピーチ AI などの AI 開発およびデプロイが加速します。また、企業レベルのセキュリティ、管理性、安定性、サポートを提供し、実用的なインサイトをより迅速に収集し、目に見えるビジネス価値を早期に実現します。
フォーム ファクター | H200 SXM¹ | H200 NVL¹ |
---|---|---|
FP64 | 34 TFLOPS | 34 TFLOPS |
FP64 Tensor コア | 67 TFLOPS | 67 TFLOPS |
FP32 | 67 TFLOPS | 67 TFLOPS |
TF32 Tensor コア | 989 TFLOPS² | 989 TFLOPS² |
BFLOAT16 Tensor コア | 1,979 TFLOPS² | 1,979 TFLOPS² |
FP16 Tensor コア | 1,979 TFLOPS² | 1,979 TFLOPS² |
FP8 Tensor コア | 3,958 TFLOPS² | 3,958 TFLOPS² |
INT8 Tensor コア | 3,958 TFLOPS² | 3,958 TFLOPS² |
GPU メモリ | 141GB | 141GB |
GPU メモリ帯域幅 | 4.8TB/秒 | 4.8TB/秒 |
デコーダー | 7 NVDEC 7 JPEG |
7 NVDEC 7 JPEG |
コンフィデンシャル コンピューティング | サポート対象 | サポート対象 |
最大熱設計電力 (TDP) | 最大 700W(構成可能) | 最大 600W(構成可能) |
マルチインスタンス GPU | 各 16.5GB で最大 7 個の MIG | 各 16.5GB で最大 7 個の MIG |
フォーム ファクター | SXM | PCIe |
相互接続 | NVLink: 900GB/秒 PCIe Gen5: 128GB/秒 |
2 ウェイまたは 4 ウェイの NVIDIA NVLink ブリッジ: 900GB/秒 PCIe Gen5: 128GB/秒 |
サーバー オプション | GPU を 4 基または 8 基搭載の NVIDIA HGX H100 Partner および NVIDIA-Certified Systems™ | GPU を 4 基または 8 基搭載の NVIDIA HGX H200 パートナー製品および NVIDIA-Certified Systems™ |
NVIDIA AI Enterprise | アドオン | 同梱 |
1 仕様は変更される場合があります。 |
NVIDIA のデータ センターのトレーニング パフォーマンスおよび推論パフォーマンスの詳細をご覧ください。