「2万台のGPUを健康的に維持する」

日本語訳：

改善された要約

Modal は、膨大でグローバルに分散したワーカープールを厳格な自動化とヘルスモニタリングと組み合わせることで、市場で最も信頼性の高い GPU ベースのコンピュートプラットフォームとして自己表現しています。AWS、GCP、Azure、および OCI から調達した 400 万件以上のクラウドインスタンスにわたり、20 000 台を超える GPU を同時に稼働させます。

信頼性エンジン

ブート & ランチ：Cloud A は最もシンプルな API（約 99.6 % の起動成功率、2–3 分）を提供します。Cloud C の H100 は数か月にわたり過熱（>90 °C）し、Cloud D の A10 は頻繁に HW_SLOWDOWN/POWER_BRAKE イベントが発生しました。Cloud B は最も高いクリティカルエラー率を示します。

マシンイメージ：継続的インテグレーションで各イメージをビルド・テストし、NVIDIA ドライバ 580.95.05 を組み込みます。視覚的ロールアウトダッシュボードと失敗時の自動ロールバックが備わっています。

ブートチェック：軽量な systemctl、nvidia‑smi、および基本的な GPU 読み書きでハードウェアを検証し、自動スケーリングを遅延させません（Cloud C の L4 は CUDA 初期化失敗 ≈0.1 %）。

パッシブヘルスチェック：dcgmi/dmesg が Xid エラー、ECC 失敗、および熱違反（>88 °C）を監視します。

アクティブヘルスチェック：毎週診断で GPU をロックし、DCGM diag レベル 2、GPUBurn、NCCL all‑reduce、および計画的な InfiniBand テストを実行。失敗は隔離または廃棄のトリガーとなります。

観測性とサポート

観測ダッシュボードはメモリ、利用率、温度、コンテナごとの電力を表示し、GPU ヘルスイベント（例：Xid 13）はコンテナログに記録されます。Slack ベースのプライベートチャネルがエンタープライズ SLA を提供し、コミュニティサポートは検知されなかった GPU 故障に対してクレジット払い戻しを行います。

パフォーマンスベンチマーク

ベンチマークテストでは、SXM H100 が PCIe H100 より約 40 % 高い torch_matmul 時間短縮と FLOPs の増加、および優れたメモリ帯域幅を示します。

成果とポジショニング

Modal は GPU アップタイムを「4 nines」（99.999 %）程度であると主張し、GPU が CPU より信頼性が低いこと（Meta の報告では LLaMA 3 トレーニング時に 58.7 % の GPU 問題）が認識されています。同社は顧客向けの専任 GPU 信頼性チームとして自社を位置づけ、「単独で進む」ことへの警告を発しています。

Modal のアプローチがスケールすれば、企業は GPU ダウンタイムを大幅に削減し、トレーニングスループットを向上させる可能性があります。これはハイパースケーラーが GPU サービスを設計する際の考慮事項に影響を与えるかもしれません。

Back Engineering – 2025年12月28日 • 8分読了

Modalは、AWS・GCP・Azure・OCIなど主要クラウドベンダーからコンピュートを取得する、自動スケールのGPUワーカープールを世界中で稼働させています。現在、このプールは20,000台以上の同時GPUに拡張され、過去数年間で400万台以上のクラウドインスタンスが起動しました。この規模になると、ほぼすべてのGPU信頼性問題に直面します。

本日は、Modal顧客へのコミットメントを示すデモとして、またハイパースケーラや「ネオクラウド」カードを利用する全員へ向けたガイドとして、私たちのGPU信頼性システムを共有します。孤軍奮闘は危険です！

1. クラウドインスタンスタイプのテストと選定

まずはクラウドインスタンスタイプの信頼性から始めます。ハイパースケーラは、インスタンスタイプレベルで大きく異なります。

クラウド備考

A 最もシンプルで信頼できる起動API；HTTP 201リクエストの99.6%が成功し、2–3分でブート。H100はC・Dに比べStableDiffusionテキスト→画像で約50％性能低下。

C H100が過熱（2025年の数か月間90 °C超）し、70 °C台ではパフォーマンス低下。予約済みH100メモリが228 MiB増加しており、顧客に割り当てられる量は減少。

クラウド	備考
A	最もシンプルで信頼できる起動API；HTTP 201リクエストの99.6%が成功し、2–3分でブート。H100はC・Dに比べStableDiffusionテキスト→画像で約50％性能低下。
C	H100が過熱（2025年の数か月間90 °C超）し、70 °C台ではパフォーマンス低下。予約済みH100メモリが228 MiB増加しており、顧客に割り当てられる量は減少。
D	A10sで頻繁にハードウェア側のクロック遅延（ `HW_SLOWDOWN` 、 `HW_POWER_BRAKE` ）が発生。米国リージョンではECCエラーが未修正で報告されることも。価格/性能比は最高；ベアメタルサーバーは「ビースト」。

A10sで頻繁にハードウェア側のクロック遅延（

HW_SLOWDOWN

、

HW_POWER_BRAKE

）が発生。米国リージョンではECCエラーが未修正で報告されることも。価格/性能比は最高；ベアメタルサーバーは「ビースト」。

私たちは半自動化されたベンチマーク（modal-host-bench）を維持し、特定のインスタンスタイプやリージョンで問題が判明した際に課すペナルティを考慮してパフォーマンスと信頼性を評価します。

サンプルベンチマークデータ – PCIe H100 と SXM H100 の比較：

カテゴリ	Cloud D H100 SXM	Cloud B H100 NVL (PCIe)	%差
torch_matmul_duration_seconds	1.6	2.7	–5.8 %
torch_matmul_flops (TF/s)	678	405	+40.3 %
h2d_bw_pageable (GiB/s)	1024	7.68	+174 %
…	…	…	…

2. マシンイメージ

ベアメタル（BM）と仮想マシン（VM）は、カーネル・OSファイル・NVIDIAドライバ・システムライブラリ・設定・Modalアプリケーションの一部を含むマシンイメージから起動します。

多クラウドプール全体で一貫性が不可欠：同じカーネル、同じドライバ、最新状態。
イメージは常に最新の本番NVIDIAドライバ（580.95.05）を保持。
自動テストと段階的統合による継続的インテグレーションへ移行。

ビルド完了時には次を実施します：

システムツールテスト – 例：NVIDIA Data Center GPU Manager（DCGM）。
カスタムGPUテスト – Modalコンテナランタイム内から実行。

これにより、ワーカーホストと顧客のゲストコンテナがGPUを正常に利用できることを保証します。

ほとんどのネオクラウドはイメージカスタマイズをサポートせず、ハイパーバイザーやキャッシュ効率の低さで起動性能が劣り、デフォルトイメージでも5分以内にブートできないことがあります。Cloud Cは新規VMのブート速度が最速（約2分）。

3. インスタンスブート

インスタンスブートは、マシンイメージがデータセンターノイズの中で活性化する場です。悪いGPUやクラウド初期化バグがあるホストで起動した場合、顧客が乗る前に把握しておく必要があります。

トレードオフ：遅いスタートアップはスケジューリングオーバーヘッドを増加させ、フェイルオーバー遅延によって信頼性を低下させる可能性。
深部チェック（
```
dcgmi diag --run 4
```
）は約1時間；浅いチェック（
```
dcgmi diag --run 1
```
）は≥1分。
ブート時には軽量チェック：
```
systemctl
```
クエリ、
```
nvidia-smi
```
クエリ、ランダムに選択したGPU(0–7)での基本的な読み書き。

本番で唯一繰り返し発生する問題は、Cloud CのL4カードがCUDA初期化時にフラッキング（約0.1％）している点です。これらのカードを対象としたコードは

cuInit

再試行を実装してください。

4. ライフタイム管理 – パッシブ & アクティブヘルスチェック

インスタンスが稼働中は、継続的なパッシブおよびアクティブヘルスチェックで信頼性を維持します。

パッシブヘルスチェック

非侵襲的・読み取り専用（GPUロックなし）。
データストリーム：
```
dmesg
```
、DCGMヘルス。
チェック項目：
- Xidエラー数／時間（GPU数で正規化）。
- 未修正ECCエラー。
- 熱違反（> 88 °C）。
- Sync boost違反、ハードウェア遅延。

注：Cloud Bは最も高いクリティカルエラー率を持ち、20％の労力で80％のパッシブヘルスチェック成功を得ています（
dcgmi
を定期実行し
dmesg
を解析）。

アクティブヘルスチェック

GPU排他ロックが必要 → スケジューリングは複雑。
過度に使用するとGPU時間を浪費、過少使用だとGPU性能低下のリスク。
週に1回以上、各GPUノードで深部アクティブチェック：
1. NVIDIA DCGM diagレベル2。
2. GPUBurn/GPU‑fryer – 負荷下で失敗を検証。
3. ローカルNCCL all-reduceテスト – NVLink/NVSwitch性能確認。

失敗した場合はアラート発行、タスク受入れ停止、必要に応じてクォランティン。

将来追加予定：需要増大に合わせたネットワーク指向チェック（InfiniBand all-reduce、CPU/GPU IB帯域幅・レイテンシ）。

行動

不健全GPUのリセットは信頼性が低い。したがって：

ホスト全体を不健全とマーク。
ドレイン。
インスタンスを廃棄または再インストール。

5. 観測性

Modalのダッシュボードでは、各コンテナに対してメモリ使用量・利用率・温度・電力消費という4つのGPU信頼性指標を表示します。これはコンテナ単位で集約されるため、多数のGPU中1台だけが不良の場合は検出が難しい。

また、異常GPUヘルスイベントはダッシュボードのコンテナログ（例：「gpu‑health」行）にパイプして送信します。ドキュメントには詳細なXid & sXid辞典を掲載し、インターネット上で最高と評されるGPUエラーリソースです。

6. サポート

すべてのチャネルからのサポートメトリクスはPylonにエクスポート。

エンタープライズ顧客：厳格なSLA付きプライベートSlackチャンネル。SlackはPylonと接続し、課題の作成から解決までを追跡。
それ以外：コミュニティチャネルで迅速対応、GPU不良に気付かなかった場合はクレジットオファー。

7. 結論

GPU信頼性はしばしば過小評価されます。NVIDIAハードウェアは驚異的なFLOPを提供しますが、信頼性が障壁となります。MetaのLLaMA 3論文では「GPU問題」が**58.7 %**の予期せぬトレーニング障害に寄与し、CPUはわずか0.5 %です。

Modalでの経験上、CPUコアが劣化したケースを一度も見つけたことはありません。

このガイドがGPU搭載ワークロードの構築・保守に役立てば幸いです。独自に進む際には「警告」を受け取っておくようにしてください。