AMD MI300X 上で DeepSeek-V4-Flash を実行する

2026/06/03 2:52

AMD MI300X 上で DeepSeek-V4-Flash を実行する

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Doubleword のエンジニアリングチームは、NVIDIA の H100 チップに対するコスト効果の高い代替手段として AMD の MI300X を成功裏に展開し、以前 AI ワークロードを無効化させていた深刻な初期ソフトウェアの障壁を克服した。主な成果は、AMD のユニークな"fnuz"FP8 ディアレクト(後続のアーキテクチャが採用している新しい OCP 標準とは異なる)への適応や、CDNA4 ではなく CDNA3 アーキテクチャをサポートするように AITER などのライブラリを更新するといった重大な互換性問題の解決にあります。ランチ形状を最適化して小規模バッチと飽和サービング両方のレジームに対応し、HIP グラフを用いて Python のオーバーヘッドを削減し、MoE ルーティングおよび Triton カーネル内のバグを修正するなどの特筆すべきコード変更を実施した結果、DeepSeek-V4-Flash モデルのケースにおいて 2,485 トークン/秒から 2,699 トークン/秒へのスループットの 8.6% の向上が実現されました。この転換は重要であり、MI300X は H100 の 80GB に比べてメモリー容量 192GB を提供しつつ、約半分の価格および安価なレンタル料を確保するためです。今後の計画として、Doubleword はこれらの修正をメインの vLLM リポジトリにアップストリーム化し、より広範なコミュニティがこれを利用可能なオープンソースソリューションとして活用できるようにします。結論として、このケースは、目標指向的なエンジニアリングにより、高価な単一ベンダー(NVIDIA)への依存度を、より安価で拡張性の高い AMD オプションへと置き換えることが、プロダクション推論クラウドにおいて可能であることを示しています。

本文

MI300X で DeepSeek-V4-Flash を動作させる技術的課題と解決策

Doubleword(ダブルワード)では、大量処理に最適化された推論クラウドの構築に取り組んでいます。そのためには、現在存在する計算リソース不足という課題を克服する必要があります。

背景:AMD MI300X の立ち位置と現状

AMD は 2023 年 12 月 6 日、「Advancing AI」イベントで MI300X を発表しました。これは NVIDIA の H100 に対する対抗策として位置づけられています。

MI300X と H100 の比較

項目MI300X (AMD)H100 (NVIDIA)注釈
HBM3 メモリ容量192 GB80 GBMI300X は約 2.4 倍多い
FP8 演算性能同等レベル同等レベル-
価格概ね半分-レンタルコストが低い
  • 市場の課題: H100 は価格高騰(レンタル価格が短期間で 40% 上昇)と在庫不足に見舞われています。
  • MI300X の状況: MI300X は評価が低く、ソフトウェア互換性のギャップにより活用が進んでいませんでした。

ソフトウェア面の改善兆候

近年、AMD ベースの AI ワークロード実行に伴う問題に改善が見られます。SemiAnalysis の InferenceX ダッシュボード は、最新の AMD パーツ(MI350X, MI355X)が NVIDIA と対比して追跡されていることを示しています。

ただし、このソフトウェア面への注目の拡大は旧型モデルには波及していません

  • 2026 年 5 月初頭時点では、vLLM を用いて DeepSeek-V4-Flashを MI300X で動作させることは事実上不可能でした。
  • 今回は、MI300X 上でこのモデルを稼働させる際に遭遇した鋭角な課題と、それを解決するための作業ログを示します。

FP8 デイアレクトの不一致と対応

問題点:FP8 デイアレクトの違い

MI300X(CDNA3 コア)は、ビット幅の低減に向けた進化の一環として、**「fnuz」**という独自の FP8 デイアレクトをサポートしています。

  • fnuz の特徴: Finite(有限値)、Nan(非数)、Unsigned Zero(符号なしゼロ)のみ。負のゼロも正無限大もない。
  • OCP 準拠 (最新 AMD チップ): MI325, MI350, MI355X は IEEE 754 に近い標準的な「e4m3/e5m2」仕様を採用している。

vLLM の初期実装は、fnuz と OCP デイアレクトの違いを無視していました。両者はビットレイアウトは共有していますが、指数バイアスが 1 ビット異なるため、誤ったデイアレクトとして読み込んだバイトは正確に 2 倍の値を返してしまいます。

解決策

DeepSeek V4 のコンプレッサーおよびキャッシュ書き込みをプラットフォーム固有の FP8 デイアレクトに合わせて変更しました。

  • 236de4e64
    : DeepSeek v4 のコンプレッサーと統合されたコンプレス/量化/キャッシュ書き込みが、プラットフォーム固有の FP8 デイアレクトを使用するように変更。スケール係数とキャッシュバイト数の整合性を確保。
  • bd06e5d87
    : スライディングウィンドウ KV キャッシュを処理する際、fnuz を認識した統合されたクエンタイズおよび挿入ヘルパーを介してルート化。

欠落したアテンションの高速パス (AITER)

DeepSeek v4 はスパースなアテンション機構を採用しています。

  • 仕組み: 各クエリは学習済みインデックスにより KV キャッシュのトップ k サブセットのみを参照し、スライディングウィンドウコンテキストについては別途処理。
  • 構成要素: KV 圧縮、インデキサー、スライディングウィンドウパス、FP8 キャッシュなど多数の構成要素を持つ。

AITER の重要性と課題

AMD で高性能を実現するための鍵は AITER です。

  • AITER: AMD が提供するチューニング済みカーネルライブラリ。NVIDIA 版(cuBLAS, cuDNN, FlashAttention など)に同等的性能を発揮。
  • 問題点: AITER に非対応の形状には汎用的な Triton にフォールバックします。しかし、汎用 Triton のアテンション性能はチューニング済みカーネルの数倍遅いです。

現状の欠如: AITER のカバレッジは偏っており、MI300X が搭載する gfx942 コア への対応が不十分でした。

gxf942 での具体的な影響と回避策

AI TER パスの欠落または機能不全により、以下のケースが発生しました。

  1. 完全に AITER パスが欠落している場合

    • 対象:
      paged MQA logits
      ,
      スパース MLA プレフィル
      ,
      スパース MLA デコード
    • 対策: ROCm 固有のヘルパーを介して呼び出し、存在しない場合は Triton 実装にフォールスルー。
  2. AITER パスは存在するが機能しない場合

    • 対象:
      AITER プレフィル MQA logits
      ,
      AITER スパースプレフィル logits
    • 現象:
      gfx942
      プラットフォーム報告時にエラー。
    • 対策: ディスパッチを拒否し、Triton のフォールバック処理を引き受ける(コミット:
      cb8a18556
      )。

HIP グラフによる最適化の制限と解決

HIP グラフは CUDA グラフの AMD 版で、ウォームアップ時にストリーム上の操作を記録し、以後再生することで Python オーバーヘッドを削減します。DeepSeek v4 の多数の構成要素を活かす上で重要です。

制約事項

キャプチャされた領域はデバイス入力の純粋な関数である必要があります。

  • ホストから読み込むことや、Ragged テンソル(動的な形状変化)を割り当てたりすることは、記録後に永遠に同じ値で再生されてしまうため不可。

AITER カーネルは C++ で起動され、デバイスポインタとサイズを受け取る構造になっており、上記制約と整合しています。しかし、Triton カーネルでは動的な ragged スcratch を扱うのが難しく、以下の修正が必要です。

  • 22cc02230
    : スパース MLA デコードメタデータを静的なキャプチャ安全なテンソルとして再構築。動的 ragged 割り当てやホストからデバイスへのスカラー書き込みを排除。

未解決の小さな問題と修正

いくつかのバグに直面しました。

  1. MoE ルーティングバグ

    • 原因: エキスパートマスクの形状が、Matmul が AITER かどうかではなく、ROCm AITER のグローバル有効性だけでゲートされていた。
    • 影響: MXFP4 エミュレーション時などにカーネルが間違ったマスクを受け取り、トークンが誤ったエキスパートへルーティングされた。
    • コミット:
      8b5f7aa2c
  2. Triton カーネルのパディング問題

    • 原因: パディング済みレーンに対してグローバルテンソルバウンドをマスキングせず、論理的ブロックサイズを使用した。
    • 影響: 高並列下で、パディング済みレーンが MoE ルーティングビット行列全体にスクリブル(汚染)を引き起こした。
    • コミット:
      c32932bb9

最適化と性能向上

正確性が確保された段階で基本的な最適化を行いました。

  • 高コスト部分の特定: スパース MLA パスと MXFP4 MoE パスがボトルネックであることが判明(これは改善余地がある好ましい状況)。

マイクロチューニングによる成果

当初はマテムル本体よりも、その周囲の書式整理やチューニングに時間がかかっていました。これらを解決し、静的な Triton 起動形状で小バッチと飽和サービングの両方をカバーできました。

  • MXFP4 OGS タイル形状: 外観が異なる動作領域において単一の静的選択として扱うことで効率化。
    • 結果: GPU あたりの出力トークン数を 2,485 → 2,699 に改善(約 +8.6% の向上)。

投資対効果と結論

モデル立ち上げ、最適化、テストの結果、以下の数値を得ることができました。

MI300X の利点

  • コスト: 競合する NVIDIA クラスターに対し、カードあたりの HBM 容量は倍以上多く、レンタル価格は約半額
  • 可用性: H100/H200 のリードタイム拡大中でありながら、オンデマンドで入手可能。
  • パフォーマンス: トークン毎のドルコストパフォーマンス(Tokens per second per dollar)で NVIDIA に対抗できる有用なレベルに達しました。

困難は一時的なもの

多くの課題は解決策が見つかりました:

  1. FP8 ダイアレクト問題: CDNA3 固有であり、最新の MI325/MI350/MI355X はすべて OCP 準拠のため、将来のモデルではこの罠は存在しません。
  2. AITER カバレッジギャップ: AMD のカーネル開発が進化し、自身のハードウェアに追いつく過程で埋まっていきます。

Doubleword API との連携

本作業を通じてオープンソース化する準備を進めていた vLLM リポジトリのパフォーマンスと安定性が大幅に改善されました。AMD ハードウェア自体は良好であり、ソフトウェアのギャップも縮まりつつあります(AMD の集中努力とエージェント型コーディングの台頭による)。

本記事に含まれる全ての修正 は、公開 vLLM リポジトリ

doublewordai/vllm-amd-blog
でデモ PR としてアップストリームされる予定です。

結論: これらの要因により、Doubleword API に DeepSeek-V4-Flash リクエストを送信した際、レスポンスはAMD ハードウェアによって駆動されている可能性があります

同じ日のほかのニュース

一覧に戻る →

2026/06/03 3:47

MAI コード 1 のフラッシュ処理

## Japanese Translation: 以下の内容は、Key Points List に含まれていた欠落していた具体的な指標およびデータポイントを統合しつつ、明瞭さを維持した改良されたバージョンです。 **Improved Summary:** MAI-Code-1-Flash は、実稼働環境で使用される GitHub Copilot harness を直接トレーニングによって訓練され、現実世界の agentic タスクを処理するコーディング AI における画期的な進歩を表します。以前の手法では正確性と効率性は排他的なものとして扱われていましたが、本モデルはこれらがシームレスに共存できることを実証しました。適応的なソリューション長制御を活用し、推論の深さを動的に調整することで、単純なリクエストには簡潔に応答し、複雑な問題にはより多くの予算を割く仕組みです。その結果、開発者は競合製品である Claude Haiku 4.5 に比べて最大 60% も少ないトークンで有用な出力をより早期に受け取り、レイテンシと運用コストを大幅に削減できます。 同じプロダクション harness 内での多様なデータセット(SWE-Bench Verified、SWE-Bench Multilingual、SWE-Bench Pro、Terminal Bench 2)を含む評価が、優位性の高いパフォーマンスを確認しました。MAI-Code-1-Flash は、テストされたすべてのコアコーディングベンチマークにおいて Claude Haiku 4.5 を凌駕し、多様で現実世界のタスクである SWE-Bench Pro で注目される +16 ポイントのリード(51.2% vs. 35.2%)を達成しました。これらの結果は、MAI-Code-1-Flash を使用する場合、より高い正確性と更大なる効率がもはやトレードオフではないことを検証し、インタラクティブなコーディングワークフローを滑らかにしつつ、全体の生産性を最適化するためのトークン投資を実現します。

2026/06/03 5:30

BYD の車部品 CT 走査検査

## Japanese Translation: 主な洞察は、現代のペットボトルが数十年前進化する工学によって最適化されており、シュリンクラップ、積み重ね、粗悪な取扱いなどに対して耐え抜き、産業物流に適合するように設計されているにもかかわらず、開封した後は実用的な使用時間がわずか数秒しかないという点にあります。この耐久性のパラドックスは、長距離輸送での耐久性に大規模な投資を行いながら製品を瞬時に廃棄するという重大な非効率性を浮き彫りにしています。重量のあるガラス(コカ・コーラの 1899 年の製瓶;エビアンが数世紀の陶器製の壺の使用の後、1908年にガラスへ転換)からプラスチックへの進化は、コスト、安全性、重量削減によって推進されました。初期のプラスチック試作には、モンサント社の「Easy-Goer」アクリロニトリルコポリマー(1975 年)があり、それが漏出と動物毒性に関する懸念から 1977年にFDA にて禁止されました。これにより、デュポン社が Polyethylene Terephthalate(PET)を導入した 1967–1973 年へと道が開かれました。1970年代後半には、大型の 2リットルボトル用の PET 生産が始まり、初期デザインは最大 96 g の重量を持ち、接着剤を用いたベースと 0.3–0.4 mm の壁厚を特徴としていました。1990年代初頭の革新としては、接着剤を使用しない「Petaloid」ベースや、より薄い壁(例:アクアフィナで約 0.2 mm)を採用するものがあり、材料使用量を大幅に削減しました。それ以降のさらなる進歩—例えば、ニージャラ・ボトルリング社の Eco-Air デザインが厚さ 0.17 mm 以下を達成し、1998年から現在にかけてプラスチック使用量を 60%削減した事例や、半リットルボトルが 2000年代中期のバージョンと比較して 75%少ないプラスチックを使用した事例—は、継続的な効率向上を反映しています。これらの進歩は企業の戦略とも整合しており、ネスレ社がペリエ社を買収(1992年)や、ペプシ/コカ・コーラがアクアフィナとダサニを中〜後半の 1990年代に発売したことは、ソーダ販売の減少への対応として行われました。しかし環境上の課題は依然として残っています。リサイクルシステムが材料の分離や汚染管理—if 特に破砕されたガラスが多材料ストリームに混入し、新しい容器にとって使用不可能になる—を失敗した場合、これらの良質に設計されたボトルは多くが埋め立て地に行き着いたり、下位利用されたりします。将来の進歩には、スマートなデザイン、厳格な材料分離プロトコル、改善されたリサイクルインフラストラクチャを通じて、サプライチェーンの耐性と廃棄物削減を調和させる必要があります。 ## Text to translate: The primary insight is that modern water bottles represent decades of advanced engineering optimized for robust industrial logistics—surviving shrink-wrapping, stacking, and rough handling—even though they have only seconds of practical use once opened. This durability paradox highlights a major inefficiency: investing heavily in long-haul resilience while discarding the product instantly. The evolution from heavy glass (Coca-Cola's 1899 bottling; Evian's switch to glass in 1908 after decades of earthenware jugs) to plastics was driven by cost, safety, and weight reductions. Early plastic attempts included Monsanto's "Easy-Goer" acrylonitrile copolymer (1975), which faced FDA bans in 1977 due to leaching and animal toxicity concerns, paving the way for DuPont's Polyethylene Terephthalate (PET) introduced around 1967–1973. By the late 1970s, PET production for large two-liter bottles began, with early designs weighing up to 96 g, featuring glued bases and wall thicknesses of 0.3–0.4 mm. Innovations in the early 1990s, such as "Petaloid" bases that eliminated glue and thinner walls (e.g., Aquafina at ~0.2 mm), cut material use significantly. Further advances since then—such as Niagara Bottling's Eco-Air designs under 0.17 mm thickness, which achieved a 60% plastic reduction from 1998 to today, and half-liter bottles using 75% less plastic than mid-2000s versions—reflect ongoing efficiency gains. These advances also align with corporate strategy: Nestlé's acquisition of Perrier (1992), and Pepsi/Coke launching Aquafina and Dasani in the mid-to-late 1990s, all in response to declining soda sales. Yet environmental challenges remain. If recycling systems fail to separate materials or manage contamination—especially with crushed glass mixed into multimaterial streams that become unusable for new containers—these well-engineered bottles often end up landfilled or downcycled. Future progress must reconcile supply chain resilience with waste reduction through smarter design, stricter material separation protocols, and improved recycling infrastructure.

2026/06/03 4:27

「グメールが私をおろかに思っている」と感じたので、退社しました。

## Japanese Translation: 著者は、嫌悪感と軽慢さを感じてしまう強制的な AI 機能のため、16 年使用してきた Gmail アカウントを恒久離脱することにした。具体的な問題は、不要なメッセージの要約、自動補填された返信文、そして「メールを書いてください」、「Tab で改善する」など、ユーザー自身がメールを作成できないか、あるいは受信者への時間の価値が低いことを示唆するような常駐的なプロンプト(促し)が含まれる。一部の AI 機能はオフにすることもできるが、それを行うことで自動的なスレッド分類といった長く使い続けられ有用な機能を犠牲にせざるを得なくなる。著者は、これらの強制的な機能が真のユーザーニーズを満たすためではなく、言語モデルの利用指標を人為的に高めるための意図的な戦術であることを疑っている。Google の従来からある安定したサービスや、fediverse を通じて独自ドメインと接続して使用している Fastmail での良好な第一印象とは裏腹に、著者はこの移行を Google エコシステムからの故意の断絶——単なるクライアントの切り替えではない——と捉えている。著者は連絡先を移す予定だが、歴史のあるメールスレッドはインポートせず、「不快な経験」として記述する後に「きれいな決別」を図る打算である。この状況はより広範な懸念を示している:技術企業は、ユーザーの自律性や長期的な信頼よりもエンゲージメントデータを優先することで、忠実な顧客を失うリスクを抱えている。 ## Text to translate: Improved Summary: The author is permanently leaving their 16-year-old Gmail account due to mandatory AI features they find intrusive and disrespectful. Specific issues include unsolicited message summaries, pre-filled replies, and persistent prompts ("help me write," "Tab to improve") that imply the user cannot compose emails themselves or that recipients do not deserve their time. While some AI features can be disabled, doing so forces users to sacrifice long-standing, useful functions like automatic thread categorization. The author suspects these unsolicited features are intentional tactics to artificially inflate language model usage metrics rather than serve genuine user needs. Despite Google's historically stable service and positive first impressions with Fastmail (which they have connected their custom domain to and use via the fediverse), the author views this move as a deliberate break from Google's ecosystem—not merely a client switch. They plan to migrate their contacts but will not import historical email threads, seeking a "clean break" after what they describe as a "bad taste" experience. The situation highlights a broader concern: tech companies risk losing loyal customers by prioritizing engagement data over user autonomy and long-term trust.