「2万台のGPUを健康的に維持する」

2026/01/19 1:16

「2万台のGPUを健康的に維持する」

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

改善された要約

Modal は、膨大でグローバルに分散したワーカー プールを厳格な自動化とヘルスモニタリングと組み合わせることで、市場で最も信頼性の高い GPU ベースのコンピュート プラットフォームとして自己表現しています。AWS、GCP、Azure、および OCI から調達した 400 万件以上のクラウド インスタンスにわたり、20 000 台を超える GPU を同時に稼働させます。

信頼性エンジン

  • ブート & ランチ:Cloud A は最もシンプルな API(約 99.6 % の起動成功率、2–3 分)を提供します。Cloud C の H100 は数か月にわたり過熱(>90 °C)し、Cloud D の A10 は頻繁に HW_SLOWDOWN/POWER_BRAKE イベントが発生しました。Cloud B は最も高いクリティカル エラー率を示します。
  • マシンイメージ:継続的インテグレーションで各イメージをビルド・テストし、NVIDIA ドライバ 580.95.05 を組み込みます。視覚的ロールアウト ダッシュボードと失敗時の自動ロールバックが備わっています。
  • ブートチェック:軽量な systemctl、nvidia‑smi、および基本的な GPU 読み書きでハードウェアを検証し、自動スケーリングを遅延させません(Cloud C の L4 は CUDA 初期化失敗 ≈0.1 %)。
  • パッシブヘルスチェック:dcgmi/dmesg が Xid エラー、ECC 失敗、および熱違反(>88 °C)を監視します。
  • アクティブヘルスチェック:毎週診断で GPU をロックし、DCGM diag レベル 2、GPUBurn、NCCL all‑reduce、および計画的な InfiniBand テストを実行。失敗は隔離または廃棄のトリガーとなります。

観測性とサポート

観測ダッシュボードはメモリ、利用率、温度、コンテナごとの電力を表示し、GPU ヘルス イベント(例:Xid 13)はコンテナログに記録されます。Slack ベースのプライベート チャネルがエンタープライズ SLA を提供し、コミュニティ サポートは検知されなかった GPU 故障に対してクレジット払い戻しを行います。

パフォーマンスベンチマーク

ベンチマークテストでは、SXM H100 が PCIe H100 より約 40 % 高い torch_matmul 時間短縮と FLOPs の増加、および優れたメモリ帯域幅を示します。

成果とポジショニング

Modal は GPU アップタイムを「4 nines」(99.999 %)程度であると主張し、GPU が CPU より信頼性が低いこと(Meta の報告では LLaMA 3 トレーニング時に 58.7 % の GPU 問題)が認識されています。同社は顧客向けの専任 GPU 信頼性チームとして自社を位置づけ、「単独で進む」ことへの警告を発しています。

Modal のアプローチがスケールすれば、企業は GPU ダウンタイムを大幅に削減し、トレーニングスループットを向上させる可能性があります。これはハイパースケーラーが GPU サービスを設計する際の考慮事項に影響を与えるかもしれません。

本文

Back Engineering – 2025年12月28日 • 8分読了

Modalは、AWS・GCP・Azure・OCIなど主要クラウドベンダーからコンピュートを取得する、自動スケールのGPUワーカープールを世界中で稼働させています。現在、このプールは20,000台以上の同時GPUに拡張され、過去数年間で400万台以上のクラウドインスタンスが起動しました。この規模になると、ほぼすべてのGPU信頼性問題に直面します。

本日は、Modal顧客へのコミットメントを示すデモとして、またハイパースケーラや「ネオクラウド」カードを利用する全員へ向けたガイドとして、私たちのGPU信頼性システムを共有します。孤軍奮闘は危険です!


1. クラウドインスタンスタイプのテストと選定

まずはクラウドインスタンスタイプの信頼性から始めます。ハイパースケーラは、インスタンスタイプレベルで大きく異なります。

クラウド備考
A最もシンプルで信頼できる起動API;HTTP 201リクエストの99.6%が成功し、2–3分でブート。H100はC・Dに比べStableDiffusionテキスト→画像で約50%性能低下。
CH100が過熱(2025年の数か月間90 °C超)し、70 °C台ではパフォーマンス低下。予約済みH100メモリが228 MiB増加しており、顧客に割り当てられる量は減少。
DA10sで頻繁にハードウェア側のクロック遅延(
HW_SLOWDOWN
HW_POWER_BRAKE
)が発生。米国リージョンではECCエラーが未修正で報告されることも。価格/性能比は最高;ベアメタルサーバーは「ビースト」。

私たちは半自動化されたベンチマーク(modal-host-bench)を維持し、特定のインスタンスタイプやリージョンで問題が判明した際に課すペナルティを考慮してパフォーマンスと信頼性を評価します。

サンプルベンチマークデータ – PCIe H100 と SXM H100 の比較:

カテゴリCloud D H100 SXMCloud B H100 NVL (PCIe)%差
torch_matmul_duration_seconds1.62.7–5.8 %
torch_matmul_flops (TF/s)678405+40.3 %
h2d_bw_pageable (GiB/s)10247.68+174 %

2. マシンイメージ

ベアメタル(BM)と仮想マシン(VM)は、カーネル・OSファイル・NVIDIAドライバ・システムライブラリ・設定・Modalアプリケーションの一部を含むマシンイメージから起動します。

  • 多クラウドプール全体で一貫性が不可欠:同じカーネル、同じドライバ、最新状態。
  • イメージは常に最新の本番NVIDIAドライバ(580.95.05)を保持。
  • 自動テストと段階的統合による継続的インテグレーションへ移行。

ビルド完了時には次を実施します:

  1. システムツールテスト – 例:NVIDIA Data Center GPU Manager(DCGM)。
  2. カスタムGPUテスト – Modalコンテナランタイム内から実行。

これにより、ワーカーホストと顧客のゲストコンテナがGPUを正常に利用できることを保証します。

ほとんどのネオクラウドはイメージカスタマイズをサポートせず、ハイパーバイザーやキャッシュ効率の低さで起動性能が劣り、デフォルトイメージでも5分以内にブートできないことがあります。Cloud Cは新規VMのブート速度が最速(約2分)。


3. インスタンスブート

インスタンスブートは、マシンイメージがデータセンターノイズの中で活性化する場です。悪いGPUやクラウド初期化バグがあるホストで起動した場合、顧客が乗る前に把握しておく必要があります。

  • トレードオフ:遅いスタートアップはスケジューリングオーバーヘッドを増加させ、フェイルオーバー遅延によって信頼性を低下させる可能性。
  • 深部チェック(
    dcgmi diag --run 4
    )は約1時間;浅いチェック(
    dcgmi diag --run 1
    )は≥1分。
  • ブート時には軽量チェック
    systemctl
    クエリ、
    nvidia-smi
    クエリ、ランダムに選択したGPU(0–7)での基本的な読み書き。

本番で唯一繰り返し発生する問題は、Cloud CのL4カードがCUDA初期化時にフラッキング(約0.1%)している点です。これらのカードを対象としたコードは

cuInit
再試行を実装してください。


4. ライフタイム管理 – パッシブ & アクティブヘルスチェック

インスタンスが稼働中は、継続的なパッシブおよびアクティブヘルスチェックで信頼性を維持します。

パッシブヘルスチェック

  • 非侵襲的・読み取り専用(GPUロックなし)。
  • データストリーム:
    dmesg
    、DCGMヘルス。
  • チェック項目:
    • Xidエラー数/時間(GPU数で正規化)。
    • 未修正ECCエラー。
    • 熱違反(> 88 °C)。
    • Sync boost違反、ハードウェア遅延。

:Cloud Bは最も高いクリティカルエラー率を持ち、20%の労力で80%のパッシブヘルスチェック成功を得ています(

dcgmi
を定期実行し
dmesg
を解析)。

アクティブヘルスチェック

  • GPU排他ロックが必要 → スケジューリングは複雑。
  • 過度に使用するとGPU時間を浪費、過少使用だとGPU性能低下のリスク。
  • 週に1回以上、各GPUノードで深部アクティブチェック
    1. NVIDIA DCGM diagレベル2。
    2. GPUBurn/GPU‑fryer – 負荷下で失敗を検証。
    3. ローカルNCCL all-reduceテスト – NVLink/NVSwitch性能確認。

失敗した場合はアラート発行、タスク受入れ停止、必要に応じてクォランティン。

将来追加予定:需要増大に合わせたネットワーク指向チェック(InfiniBand all-reduce、CPU/GPU IB帯域幅・レイテンシ)。

行動

不健全GPUのリセットは信頼性が低い。したがって:

  1. ホスト全体を不健全とマーク。
  2. ドレイン。
  3. インスタンスを廃棄または再インストール。

5. 観測性

Modalのダッシュボードでは、各コンテナに対してメモリ使用量・利用率・温度・電力消費という4つのGPU信頼性指標を表示します。これはコンテナ単位で集約されるため、多数のGPU中1台だけが不良の場合は検出が難しい。

また、異常GPUヘルスイベントはダッシュボードのコンテナログ(例:「gpu‑health」行)にパイプして送信します。ドキュメントには詳細なXid & sXid辞典を掲載し、インターネット上で最高と評されるGPUエラーリソースです。


6. サポート

すべてのチャネルからのサポートメトリクスはPylonにエクスポート。

  • エンタープライズ顧客:厳格なSLA付きプライベートSlackチャンネル。SlackはPylonと接続し、課題の作成から解決までを追跡。
  • それ以外:コミュニティチャネルで迅速対応、GPU不良に気付かなかった場合はクレジットオファー。

7. 結論

GPU信頼性はしばしば過小評価されます。NVIDIAハードウェアは驚異的なFLOPを提供しますが、信頼性が障壁となります。MetaのLLaMA 3論文では「GPU問題」が**58.7 %**の予期せぬトレーニング障害に寄与し、CPUはわずか0.5 %です。

Modalでの経験上、CPUコアが劣化したケースを一度も見つけたことはありません。

このガイドがGPU搭載ワークロードの構築・保守に役立てば幸いです。独自に進む際には「警告」を受け取っておくようにしてください。

同じ日のほかのニュース

一覧に戻る →

2026/01/23 0:20

**GPTZero、NeurIPS 2025受理論文で新たに100件の幻覚現象を発見**

2026/01/18 8:29

**Scheme を WebAssembly にコンパイル**

## Japanese Translation: --- ## Summary Pythonで実装されたオープンソースScheme実装「Bob」は、15周年を記念してネイティブWASMバイナリを生成するWebAssembly(WASM)コンパイラを追加しました。新しい `WasmCompiler` は解析済みのScheme式を直接WASMテキストに変換し、その後 wasm‑tools スイートでコンパイルされ、Node.js経由で実行されます。 コンパイラの核心は、Schemeプリミティブを実装する約1,000行のWASMコードから成ります: - **オブジェクト表現** – SchemeオブジェクトはWASM GC型にマッピングされます: - `$PAIR` 構造体は `car` と `cdr` を `(ref null eq)` 参照として保持します。 - `$BOOL` 構造体は単一の `i32`(0 = false、非ゼロ = true)を保持します。 - `$SYMBOL` 構造体は線形メモリ内でオフセットと長さを表す2つの `i32` を保存します。 - **数値** – 整数値は `i31` 型を使用してボックス化されていない整数を直接参照します。 - **シンボル** – シンボルは線形メモリに固定オフセット(例: `(data (i32.const 2048) "foo")`)で発行され、アドレス/長さペアで参照されます。 - **組み込み関数** – `write` 関数はWASMテキスト内で直接実装され、ホスト関数として `write_char` と `write_i32` の2つだけをインポートします。 Bobはすでにインタープリタ、コンパイラ、VM、およびカスタムマーク・アンド・スウィープGCを備えたC++ VMを提供しています。追加されたコンパイラは今後さらに進化する予定ですが、現在のwasmtime用Pythonバインディングは2023年10月に仕様に組み込まれたWASM GC提案をまだサポートしていないため、SchemeをWebAssembly上で完全にガベージコレクション実行することが制限されています。 それでもユーザーは今やSchemeを直接WebAssemblyとして実行できるようになり、クロスプラットフォームのデプロイメントとJavaScript/Node.js環境とのより緊密な統合の可能性が開かれます。

2026/01/23 2:41

**CSS の光学的錯覚**

## Japanese Translation: (すべての主要なポイントを統合したもの) > 記事は、マウスホバーに応じて反応するインタラクティブな CSS ベースの錯視デモの CodePen ギャラリーを提示しています。 > 各デモは、Poggendorff の歪んだ線(傾いた 2 つのグラデーションと `::before`/`::after` を使用)、誘導グラデーション効果、Cornsweet & White の色コントラストトリック(黒白格子に `mix-blend-mode` を適用)、リングおよびチェッカーボードパターン、重なり合う線の色球体、曲率盲点、Café Wall イルлю(3 本のグラデーションで平行線を斜めにする)、ペノース三角形やエビングハウス円、カニッツァ四角形など、古典的な視覚現象を示しています。 > ギャラリーには、エビングハウス錯視のアニメーション版、回転する「タワー」、色のファン、逆スピーク、モーションバインディング、メンツラインズ、ウォッリングカラーなども含まれ、ドット線の動きやコントラスト非同期、息を吸う四角形、トロックラー消失といった静的に動きを示唆するパターンも掲載されています。 > すべての効果は CSS グラデーション、疑似要素、`mix-blend-mode`、およびキーフレームアニメーションで実現され、微妙な背景やホバー変更がどれほど印象的な視覚トリックを生み出せるかを示しています。 > コレクションは Patrick Pester の「35 optical…」リストと Michael Bach の「154 Visual Phenomena & Optical Illusions」に触発されています。 > Medium と DEV に公開されており、著者は将来の追加や改良の可能性について読者にコメントを残すよう呼びかけています。 *この改訂された要約は、すべての主要なポイントを完全に反映し、推測を加えず、明確で簡潔に保っています。*

「2万台のGPUを健康的に維持する」 | そっか~ニュース