AMD MI355X 上で GLM5.2 を実行し、コストは Blackwell よりも 2 倍以上低減してノードあたり 2626 トークン/秒を達成

2026/07/04 6:49

AMD MI355X 上で GLM5.2 を実行し、コストは Blackwell よりも 2 倍以上低減してノードあたり 2626 トークン/秒を達成

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

AMD の新しい Instinct MI355X アクセラレータは、NVIDIA の B シリーズ GPU に対して魅力的な代替手段を提供しており、B300 と比較して約 2.75 倍安い GPU 単価で同様のハードウェア仕様を備えています。また、B200 には 2 倍以上安いです。歴史的に CUDA エコシステムを通じて「day-0」の優位性を保持してきた NVIDIA ですが、AMD はこの格差を急速に縮めています。ROCm は当初、MI355X 上で GLM-5.2 のような frontier モデルに対してネイティブなサポートがなかったものの、ターゲットされた最適化によって B200 のノードあたり性能の約 80% を対価の少なさで実現しました。主要なブリークスルーとしては、AMD Quark を用いて損失のない MXFP4 量子化を実現し(公式の FP8 の制限を上回る)、出力劣化を伴わずに堅牢なネイティブ MXFP4 サポートのために sglang を選択し、モジュールプレフィックス不一致を修正したり、ROCm メタデータ カーネルガードを追加したりする特定のパッチを適用することで推測デコーディングの利点を解放(約 3 倍)した点があります。戦略的な構成チューニング(例えば TP4×DP2 への移行)や fp4 シェイプ用の MoE カーネルの最適化を通じて、カスタムカーネルを書かずにシングルノードデプロイメントで 2626 tok/s/node という SOTA の総通量を実現しました。この戦略は推論ワークロードに対して有効であり、AMD が NVIDIA の市場的地利を成功裏に侵食し、低コストで高計算能力を実現していることを示しています。また、マルチノードスケーリングに関する課題がまだ残るものの、よりバランスの取れた競争環境が育まれていることを意味します。

本文

AMD GPU の採用:低価格での高性能推論への道筋

市場背景と AMD の立ち位置

現在、推論への需要が供給を大きく上回り、Blackwell™アーキテクチャの GPU が不足しています。これにより NVIDIA GPU の価格高騰とトークン単価の上昇が続いています。その中で AMD は、以下の条件下で強力な代替案を提供しています。

  • 圧倒的な価格優位性: MI355X は B300(Blackwell 相当)に比べて約 2.75 倍も安価
  • 同等の性能スペック: スペック面で Blackwell と対等に渡り合い得ます。
  • 低価格推論の解決策: これまで提唱されていた「コスト効率」が現実のものとなりました。

NVIDIA vs AMD の課題と現実

AMD を採用する際、直面する主なハードルは**ソフトウェア面での優位性(CUDA)**にあります。

  • 同日対応(Day-0)の欠如:
    • NVIDIA は最新モデルに対して即座に対応し、利用者が最小限の手間で高速推論を実行できます。
    • 対照的に、AMD(MI355X / ROCm スタック)では、SOTA(最先端)な性能を確保するのが稀です。
  • 開発コストの増大:
    • 最新モデルへの構築・最適化には何週間ものエンジニアリングとリソースを要します。
    • これにより AMD は常に後れを取りながら追走する立場に立たされます。

我々のパフォーマンスベンチマーク成果

Wafer の研究チームは、AMD MI355X 上で特定のワークロードにおいて以下の結果を達成しました。

基本設定と成果

  • ワークロード: 入力 2 万トークン / 出力 1 千トークン
    • キャッシュヒットレート:60%
  • 条件: クニー値(knee)≤ 5s の TTFT(Time to First Token)
  • 達成スループット: 2626 トークン/秒/ノード (RPS: 2.4)
    • Blackwell(B200)の性能の 80% に相当します。
    • 価格としては 2 倍以上安価にもかかわらずです。

パフォーマンスベンチマーク表

維持 RPS集計 tok/s/nodeTTFT p50 / p95成功率
0.54490.59s / 0.60s100%
1.09740.60s / 0.81s100%
1.519130.62s / 1.03s100%
2.019440.62s / 1.05s100%
2.2520890.63s / 1.23s100%
2.4(飽和点)26260.81s / 2.22s100%

TensorWave(TensorWave)での評価

  • モデル: GLM5.2 (入力 1 万トークン / 出力 1.5 千トークン)
  • 環境: AMD MI355X の容量を活用した単一ストリーム
  • 結果: 213 トークン/秒
    • AA ランキングでは首位ではありませんが、性能対単価の観点からは依然として明確な優位性を持っています。

実現に向けた技術的アプローチ

1. 量子化手法とフレームワークの選定

  • モデル準備: 基礎的な bf16 の GLM-5.2 を MXFP4 に量子化しました(AMD Quark を使用)。
    • z-ai 公式の FP8 と比較しても、**精度損失なし(lossless)**であり、GPQA-Diamond や GSM8K で同等の結果を得ていました。

2. フレームワーク選定:Sglang

vLLM、ATOM、sglang の 3 つの中で Sglang を選択した理由です。

フレームワーク課題・デメリット
vLLMMXFP4 および GlmMoeDsa パスの実装がなく、MXFP4 の利点を活かせない。
ATOM長文脈において出力品質が低下する傾向がある。
Sglangネイティブサポートへの障壁が最少。量子化の恩恵を受けつつも一貫性を保てる唯一のエンジン。

評価結果比較:FP8 vs MXFP4

評価項目 (設定)FP8 ベースラインMXFP4 (我々の手法)差分 (Δ)
GSM8K
(200q, 5-shot, greedy)
0.965 ± 0.0130.955 ± 0.014−0.010
GPQA-Diamond
(198q × 2 seeds, temp 1.0)
0.9217 ± 0.0270.9026 ± 0.029−0.019
tau2 macro0.8190.834+0.015

3. Speculative Decode(推論的デコード)の有効活用

sglang ROCm イメージでは標準サポートされていないため、以下の 2 つの修正を行いました。

① 量子化ルックアップ失敗の修復

  • 問題: MTP ヘッドは bf16 で保持されていますが、Quark の共有エキスパート(MXFP4)の名前 (
    model.layers.78.mlp.shared_experts.*
    ) と MTP レイヤーのプレフィックス (
    model.decoder.*
    ) が不一致していました。
  • 結果: sglang が量子化ルックアップ失敗し、形状不一致により初期化がクラッシュしていました。
  • 解決策:
    Quark
    で量子化しない重みのレイヤー名を一覧記録し、sglang が使用するデコーダー名の元でレイヤー 78 のエントリを再度コピーすることで問題を解決しました。

② ディープ スペキュレーティブ デコードの有効化

  • 問題: z-ai が推奨する深度 ≥4 の設定に対し、ROCm ガードなしでの
    #include <cuda_runtime.h>
    含んでおりブロックされていました。
  • 解決策: 単一の
    #ifdef USE_ROCM
    ガードを追加することで解決。

最適化による到達点

これらの修正に加え、

--kv-cache-dtype fp8_e4m3
--enable-aiter-allreduce-fusion
などのコンフィグ調整を行い、単一ストリームデコードで 213 トークン/秒 を達成しました。

4. 集計スループットの最適化(プリフィル性能向上)

入力 2 万トークンのキャッシュヒット率 60% という「プリフィル束縛型」のワークロードにおいて、単一ストリームのデコード最適化だけでは不十分でした。

  • 初期状態: TP8 コンフィグで 1461 tok/s/node(GLM5.2-MXFP4)。
  • 改善試行: TP4×DP2 に切り替えて 1944 tok/s/node に向上。
  • 根本原因: sglang イメージ上の FlyDSL ヒューリスティックフォールバック(fp4 MoE カーネルが不十分)によりパフォーマンスが抑圧されていました。
  • 最終解決策: 独自に GLM の fp4 シェイプ(
    model_dim
    6144、
    moe_inter
    2048 など)に合わせて MoE カーネル選択を調整しました。

【最終成果】TP4×DP2 + 独自カーネル最適化

  • RPS: 2.4 (飽和点)
  • スループット: 2626 トークン/秒/ノード
  • 改善度: 劇的なパフォーマンス向上を達成しました。

なぜこれが重要なのか:今後の展望

AMD MI355X で最高な性能対単価比率を実現するのは難しい課題ではありませんでした。

  • 開発コストの減少: 独自のカーネル記述は不要です(Qwen3.5 397B などの複雑な作業とは異なります)。
  • 実践的な導入: マルチノード構成より Single Node デプロイメント が一般的であり、すぐに適用可能です。

結論として、AMD における SOTA の障壁はもはや「ソフトウェアの問題」ではなく、「サポートの有無」という問題へ変化しつつあります。CUDA の優位性は実時間で腐食しており, AMD 採用によるコスト効率と性能バランスが明確に高まっています。

同じ日のほかのニュース

一覧に戻る →

2026/07/04 7:40

巨大な木は問題なく水を上枝に送ることができます。

## Japanese Translation: エクセター大学とカーディフ大学が主導する新研究で、Science誌に発表された内容により、世界最高位の熱帯ティトロカルプ属(Dipterocarp)の樹木は、極めて高い位置での水分輸送課題を完全に補償できることが明らかになった。アジアの雨林を支配し、80 メートルを超える高さまで成長する巨大なティトロカルプ属の木々は、より低い木々に比べて旱魃に対する感受性を示さない。これは進化した水理学的適応によるものである。本研究は、2023 年~2024 年の激しいエルニーニョ現象を背景としてマレーシア・ボルネオで行われたものであり、7 メートルから 71 メートルの幅を持つ樹木が旱魃を通じて幹の成長速度を維持したことが見出された。これは、重力と導管の長さが高大型種における光合成および成長を制限するという長年の信念に挑戦するものである。より高いティトロカルプ属の木々は、地面付近で広く水分を運ぶ導管を持つことと、萎れる前により大きな水ストレスに耐えるように適応した葉を持つことによりこれを実現する。これらの適応は、80 メートル以上高く水を移動させるために必要な極めて低い圧力の下でも液体水の形態を維持することを可能にする。これらの結果は、特にアジアの地上バイオマス炭素の半分を貯蔵するティトロカルプ属森林において重要であり、水理学的システムが弱く高大型種では旱魃による急速な死に瀕するという以前の理論を矛盾させるものである。共同著者であるパウロ・ビッテンコート博士は、これらの希少樹木がマレーシア・ボルネオにおける生態学的中心性であることを強調しているが、研究者らは同様の特性を他の高大型樹種においても検討すべきであると指摘している。研究チームには、マレーシア、イギリス、チェコ共和国、ドイツ、スペイン、ブラジル、アメリカ合衆国の機関が含まれており、資金供与は自然環境研究評議会(NERC)からのものである。今後の研究では、ティトロカルプ属を超えた水理学的システムと旱魃耐性の調査を通じて、全球的な旱魃リスク評価および保全戦略を精査していく予定である。

2026/07/04 7:33

Leanstral 1.5:全データに対する証明の豊富さを実現

## Japanese Translation: Leanstral 1.5 は、60 億のアクティブパラメータと全パラメータとして 1190 億を持ち、競合製品のごく一部のコストで最先端のパフォーマンスを達成する無料の Apache-2.0 ライセンスモデルです。このモデルは miniF2F でサチュレーション(検証セットとテストセットで両方 100%)を達成し、PutnamBench の問題のうち 672 問中 587 問を解決します(25k トークンの予算では 44 問から、4M トークンの予算では 587 問へ向上)。FATE-H ベンチマークでは 87% の精度、FATE-X ベンチマークでは 34% の精度を達成しています。中学習(mid-training)、監督微調整、CISPO を用いた強化学習、特定の定理に対する安全性チェックを経て訓練された Leanstral 1.5 は、複数回のターンにわたる定理証明および生ファイルシステムでのコードエージェントにおけるエージェント型証明工学において卓越しています。ターゲットとなる定理のリストを用いて SafeVerify のフォーク版で検証され、このモデルは問題あたり約 $4 のコストがかかります(Seed-Prover の $300 以上や Aleph Prover の $54–68 に比べて著しく低く)、かつ大きなトークン予算と共によくスケーリングします。実際の運用では、オープンソースライブラリにおける微細なバグを検出し、57 リポジトリにわたって以前に知られていなかった 5 つのバグを発見しました。その例として、datrs/varinteger ライブラリにおいて `(value + 1)` が `Std.U64.MAX` 入力に対してオーバーフローした整数オーバーフローがありました。このモデルは Hugging Face で重みファイルおよび無料の API エンドポイント(leanstral-1-5)として利用可能です。ユーザーは Mistral Vibe(`uv tool install mistral-vibe`)で実行でき、Lean LSP MCP の設定をオプションで行うことで、その能力を活用し、高次の定理証明やバグ探索を行えるようにしながら、莫大なコストなしに動作させられます。

2026/07/04 9:57

MSI Center:システム権限を数秒で取得する方法

## 日本語翻訳: はい、不足している技術的詳細と文脈を追加推測を含まずに網羅するために、改良されたバージョンの使用が推奨されます。 ## 改善された要約 MSI ロータープすべての MSI ノートパソコンおよび多くの組立済みデスクトップで使用されているプリインストールの MSI Center ソフトウェアに存在する深刻なセキュリティ不具合により、ローカルの管理者権限を持たない認証ユーザーでもフルシステム制御を獲得することが可能になっています。この脆弱性の原因は、「Notebook Foundation」サービスであり、起動時に命名パイプ(`MSI_SERVICE_2`)を起動させます。このパイプを通じて、ログイン済みのどのユーザーもローカルシステムとして特権コマンドを実行でき、レジストリの変更、WMI の変更(例:Windows Defender の無効化)、内部 RPC(`PC\REXE`、`PC\KEXE`)を介した任意のプロセスの実行または終了が可能になります。MSI は独自のプロトコルに 3DES という非推奨暗号化アルゴリズムを使用した「セキュリティ・バイ・オブスクアリティ」に依存しており、サービスは登録済みのクライアント名のリストを反復処理することでペイロードを解読するまでブルートフォース攻撃を試みることもしばしばです。攻撃には有効なログイン認証情報が必要ですが、LAN 内での SMB を介したリモート実行の両方でローカルまたはリモートでの利用が可能です。研究者は管理者権限なしでリモートコード実行(RCE)と特権昇格を実証しており、既にある概念証明(PoC)では `cmd.exe` の起動や、典型的なマルウェアでは PowerShell コマンドまたはスクリプトの実行が行われています。MSI は当初の PSIRT メールボックスエラー(「554」)で他の研究者からの報告がブロックされた後にパッチ付きバージョン(2.0.70.0)をリリースしましたが、その後の問題解決には Gamers Nexus の研究者 Steve Burke の支援もありました。しかしながら、VulDB を介した公式の CVE(CVE-2026-XXXX)は現在も保留されており、約 4 週間の見積もりがあります。パッチ付きバージョンへの更新を行わず、ログインポリシーを強化しない場合、影響を受けるシステムはマルウェアの悪用、データ漏洩、そして完全なシステム改ざんのリスクに直面することになります。

AMD MI355X 上で GLM5.2 を実行し、コストは Blackwell よりも 2 倍以上低減してノードあたり 2626 トークン/秒を達成 | そっか~ニュース