
2026/07/04 6:49
AMD MI355X 上で GLM5.2 を実行し、コストは Blackwell よりも 2 倍以上低減してノードあたり 2626 トークン/秒を達成
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
AMD の新しい Instinct MI355X アクセラレータは、NVIDIA の B シリーズ GPU に対して魅力的な代替手段を提供しており、B300 と比較して約 2.75 倍安い GPU 単価で同様のハードウェア仕様を備えています。また、B200 には 2 倍以上安いです。歴史的に CUDA エコシステムを通じて「day-0」の優位性を保持してきた NVIDIA ですが、AMD はこの格差を急速に縮めています。ROCm は当初、MI355X 上で GLM-5.2 のような frontier モデルに対してネイティブなサポートがなかったものの、ターゲットされた最適化によって B200 のノードあたり性能の約 80% を対価の少なさで実現しました。主要なブリークスルーとしては、AMD Quark を用いて損失のない MXFP4 量子化を実現し(公式の FP8 の制限を上回る)、出力劣化を伴わずに堅牢なネイティブ MXFP4 サポートのために sglang を選択し、モジュールプレフィックス不一致を修正したり、ROCm メタデータ カーネルガードを追加したりする特定のパッチを適用することで推測デコーディングの利点を解放(約 3 倍)した点があります。戦略的な構成チューニング(例えば TP4×DP2 への移行)や fp4 シェイプ用の MoE カーネルの最適化を通じて、カスタムカーネルを書かずにシングルノードデプロイメントで 2626 tok/s/node という SOTA の総通量を実現しました。この戦略は推論ワークロードに対して有効であり、AMD が NVIDIA の市場的地利を成功裏に侵食し、低コストで高計算能力を実現していることを示しています。また、マルチノードスケーリングに関する課題がまだ残るものの、よりバランスの取れた競争環境が育まれていることを意味します。
本文
AMD GPU の採用:低価格での高性能推論への道筋
市場背景と AMD の立ち位置
現在、推論への需要が供給を大きく上回り、Blackwell™アーキテクチャの GPU が不足しています。これにより NVIDIA GPU の価格高騰とトークン単価の上昇が続いています。その中で AMD は、以下の条件下で強力な代替案を提供しています。
- 圧倒的な価格優位性: MI355X は B300(Blackwell 相当)に比べて約 2.75 倍も安価。
- 同等の性能スペック: スペック面で Blackwell と対等に渡り合い得ます。
- 低価格推論の解決策: これまで提唱されていた「コスト効率」が現実のものとなりました。
NVIDIA vs AMD の課題と現実
AMD を採用する際、直面する主なハードルは**ソフトウェア面での優位性(CUDA)**にあります。
- 同日対応(Day-0)の欠如:
- NVIDIA は最新モデルに対して即座に対応し、利用者が最小限の手間で高速推論を実行できます。
- 対照的に、AMD(MI355X / ROCm スタック)では、SOTA(最先端)な性能を確保するのが稀です。
- 開発コストの増大:
- 最新モデルへの構築・最適化には何週間ものエンジニアリングとリソースを要します。
- これにより AMD は常に後れを取りながら追走する立場に立たされます。
我々のパフォーマンスベンチマーク成果
Wafer の研究チームは、AMD MI355X 上で特定のワークロードにおいて以下の結果を達成しました。
基本設定と成果
- ワークロード: 入力 2 万トークン / 出力 1 千トークン
- キャッシュヒットレート:60%
- 条件: クニー値(knee)≤ 5s の TTFT(Time to First Token)
- 達成スループット: 2626 トークン/秒/ノード (RPS: 2.4)
- Blackwell(B200)の性能の 80% に相当します。
- 価格としては 2 倍以上安価にもかかわらずです。
パフォーマンスベンチマーク表
| 維持 RPS | 集計 tok/s/node | TTFT p50 / p95 | 成功率 |
|---|---|---|---|
| 0.5 | 449 | 0.59s / 0.60s | 100% |
| 1.0 | 974 | 0.60s / 0.81s | 100% |
| 1.5 | 1913 | 0.62s / 1.03s | 100% |
| 2.0 | 1944 | 0.62s / 1.05s | 100% |
| 2.25 | 2089 | 0.63s / 1.23s | 100% |
| 2.4(飽和点) | 2626 | 0.81s / 2.22s | 100% |
TensorWave(TensorWave)での評価
- モデル: GLM5.2 (入力 1 万トークン / 出力 1.5 千トークン)
- 環境: AMD MI355X の容量を活用した単一ストリーム
- 結果: 213 トークン/秒
- AA ランキングでは首位ではありませんが、性能対単価の観点からは依然として明確な優位性を持っています。
実現に向けた技術的アプローチ
1. 量子化手法とフレームワークの選定
- モデル準備: 基礎的な bf16 の GLM-5.2 を MXFP4 に量子化しました(AMD Quark を使用)。
- z-ai 公式の FP8 と比較しても、**精度損失なし(lossless)**であり、GPQA-Diamond や GSM8K で同等の結果を得ていました。
2. フレームワーク選定:Sglang
vLLM、ATOM、sglang の 3 つの中で Sglang を選択した理由です。
| フレームワーク | 課題・デメリット |
|---|---|
| vLLM | MXFP4 および GlmMoeDsa パスの実装がなく、MXFP4 の利点を活かせない。 |
| ATOM | 長文脈において出力品質が低下する傾向がある。 |
| Sglang | ネイティブサポートへの障壁が最少。量子化の恩恵を受けつつも一貫性を保てる唯一のエンジン。 |
評価結果比較:FP8 vs MXFP4
| 評価項目 (設定) | FP8 ベースライン | MXFP4 (我々の手法) | 差分 (Δ) |
|---|---|---|---|
| GSM8K (200q, 5-shot, greedy) | 0.965 ± 0.013 | 0.955 ± 0.014 | −0.010 |
| GPQA-Diamond (198q × 2 seeds, temp 1.0) | 0.9217 ± 0.027 | 0.9026 ± 0.029 | −0.019 |
| tau2 macro | 0.819 | 0.834 | +0.015 |
3. Speculative Decode(推論的デコード)の有効活用
sglang ROCm イメージでは標準サポートされていないため、以下の 2 つの修正を行いました。
① 量子化ルックアップ失敗の修復
- 問題: MTP ヘッドは bf16 で保持されていますが、Quark の共有エキスパート(MXFP4)の名前 (
) と MTP レイヤーのプレフィックス (model.layers.78.mlp.shared_experts.*
) が不一致していました。model.decoder.* - 結果: sglang が量子化ルックアップ失敗し、形状不一致により初期化がクラッシュしていました。
- 解決策:
で量子化しない重みのレイヤー名を一覧記録し、sglang が使用するデコーダー名の元でレイヤー 78 のエントリを再度コピーすることで問題を解決しました。Quark
② ディープ スペキュレーティブ デコードの有効化
- 問題: z-ai が推奨する深度 ≥4 の設定に対し、ROCm ガードなしでの
含んでおりブロックされていました。#include <cuda_runtime.h> - 解決策: 単一の
ガードを追加することで解決。#ifdef USE_ROCM
最適化による到達点
これらの修正に加え、
--kv-cache-dtype fp8_e4m3 や --enable-aiter-allreduce-fusion などのコンフィグ調整を行い、単一ストリームデコードで 213 トークン/秒 を達成しました。
4. 集計スループットの最適化(プリフィル性能向上)
入力 2 万トークンのキャッシュヒット率 60% という「プリフィル束縛型」のワークロードにおいて、単一ストリームのデコード最適化だけでは不十分でした。
- 初期状態: TP8 コンフィグで 1461 tok/s/node(GLM5.2-MXFP4)。
- 改善試行: TP4×DP2 に切り替えて 1944 tok/s/node に向上。
- 根本原因: sglang イメージ上の FlyDSL ヒューリスティックフォールバック(fp4 MoE カーネルが不十分)によりパフォーマンスが抑圧されていました。
- 最終解決策: 独自に GLM の fp4 シェイプ(
6144、model_dim
2048 など)に合わせて MoE カーネル選択を調整しました。moe_inter
【最終成果】TP4×DP2 + 独自カーネル最適化
- RPS: 2.4 (飽和点)
- スループット: 2626 トークン/秒/ノード
- 改善度: 劇的なパフォーマンス向上を達成しました。
なぜこれが重要なのか:今後の展望
AMD MI355X で最高な性能対単価比率を実現するのは難しい課題ではありませんでした。
- 開発コストの減少: 独自のカーネル記述は不要です(Qwen3.5 397B などの複雑な作業とは異なります)。
- 実践的な導入: マルチノード構成より Single Node デプロイメント が一般的であり、すぐに適用可能です。
結論として、AMD における SOTA の障壁はもはや「ソフトウェアの問題」ではなく、「サポートの有無」という問題へ変化しつつあります。CUDA の優位性は実時間で腐食しており, AMD 採用によるコスト効率と性能バランスが明確に高まっています。