
2026/04/08 21:19
**MegaTrain:単一GPUで100 B+ パラメータのLLMをフル精度でトレーニング**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
MegaTrain は、モデルのデータをほとんどホスト(CPU)メモリに移動させることで、単一の高性能 GPU で巨大な言語モデルを訓練できることを示しています。システムはすべてのパラメータとオプティマイザ状態を CPU RAM に保持し、計算のためにそれらをレイヤーごとに GPU にストリーミングしてから勾配を再び送信します。ダブルバッファリングされたパイプラインとステートレスレイヤーテンプレートは、GPU を稼働させつつ CPU‑GPU の遅い通信を削減します。
DeepSpeed ZeRO‑3 などの既存手法(まだ GPU 上にデータを保持するか、限定的なオフロードのみを行う)と比較して、MegaTrain はデバイス上の永続状態を完全に排除し、訓練効率を向上させます。H200 GPU と 1.5 TB のホスト RAM を組み合わせると、最大で 120 B パラメータモデルを訓練でき、14 B パラメータタスクでは DeepSpeed ZeRO‑3 を 1.84 倍以上上回ります。また、512k トークンコンテキストを持つ 7 B モデルも単一の GH200 GPU 上でサポートします。
このアプローチは、大規模訓練に必要なハードウェア障壁を低減し、研究者や企業がマルチ GPU クラスターを必要とせずにより大きな言語モデルを構築できるようにすることで、多くの産業で AI 研究と導入を加速させる可能性があります。
本文
概要
本稿では、単一GPU上でフル精度で100 B+パラメータを持つ大規模言語モデルを効率的に学習する MegaTrain を紹介します。従来のGPU中心型システムとは異なり、MegaTrain はパラメータとオプティマイザ状態をホスト(CPU)メモリ上に保持し、GPU を一時的な計算エンジンとして扱います。各層では、パラメータをストリームインして勾配をストリームアウトさせることで、デバイス上の永続状態を最小限に抑えます。
CPU–GPU 帯域幅ボトルネックを克服するため、以下の2つの主要最適化手法を採用しています。
- パイプライン付きダブルバッファリング実行エンジン – パラメータプリフェッチ、計算、および勾配オフロードを複数のCUDAストリームで重ね合わせることで、GPU の継続的な実行を可能にします。
- ステートレス層テンプレート – 永続的な autograd グラフを排除し、ストリームインした重みを動的にバインドすることで、グラフメタデータの永続化を回避しつつスケジューリングの柔軟性を提供します。
1.5 TB のホストメモリを備えた単一 H200 GPU 上で MegaTrain は最大 120 B パラメータまでのモデルを安定して学習できます。14 B モデルを訓練する際には DeepSpeed ZeRO‑3(CPU オフロード付き)より 1.84 倍のトレーニングスループットを達成し、512k トークンコンテキストで 7 B モデルの学習も単一 GH200 上で可能です。
提出履歴
- 提出者: Zhengqing Yuan
- [メールを見る]
- v1 – 2026年4月6日(月)18:43:56 UTC(787 KB)