
2026/06/01 22:05
_launch HN: Expanse (YC P26) – 未利用の GPU リソースを開放する_
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Expanse は、Ismaeel、Eren、Yafet、Nikodem の 4 人が構築した革新的なツールであり、SLURM または Kubernetes を使用する HPC および GPU クラスターの有効容量を増加させることを目的としています。本ツールは、ユーザーが失敗を避けるためにリソースの要求を実際の必要量の 2~3 倍に上乗せするといった重要な非効率性を解消します。その結果、データセンターの有効稼働率はわずか 30%~40% に留まっていました。国の規模を持つクラスターで行われた測定では、59% の計算リソースが無駄に消費され、年間約 850 万ドルの損失が生じていることが示されました。Expanse は、すべてのノードで稼働し、ライブシステムテレメトリを収集し、深層学習モデルを用いて提出されたワークロードを分析することでこの課題を解決します。これらのモデルはクラスターごとに微調整(ファインチューニング)されています。このアプローチにより、既存のジョブ提出方法を変更することなく、リソース予測(例えば GPU バッファメモリ量やウォールタイム)、コードレベルの修正提案を含む故障診断、リスク許容度に応じて調整された不確実性推定が実現します。この手法は、先端的な汎用 LLM の予測タスクにおいて約 8 倍優れた性能を発揮します。採用を促すため、Expanse では固定された月額料金で永久インストール前に回復可能な容量を報告するための 2 ヶ月の測定期間を含む有料のパイロットプログラムを提供しており、クラウド料率の上昇に合わせて組織が運用コストを大幅に削減できるスケーラブルなパスウェイを実現しています。
本文
Expanse:HPC/GPU クラスターの効率的なリソース最適化ソリューション
イスマエル、エレン、ヤフェト、ニコデムからのご挨拶です。
Kubernetes や SLURM などのスケジューラを用いて動作する HPC/GPU クラスターの実効容量を増大させるため、「Expanse」 (https://expanse.sh/) を開発しました。
クラスターがジョブを受け取る前に、ソースコード、ジョブ提出スクリプト、および実行予定のハードウェア情報を解析し、以下の点を達成します:
- 必要なリソースの正確な予測
- 潜在的な障害の早期検知
- コードライン単位の最適化提案の提供
📉 課題:データセンターの実効利用率の低さ
データセンターの実効利用률은は概ね 30% から 40% に留まっており、以下の問題が発生しています。
- 過剰なリクエスト(Over-provisioning)
- ユーザーは非対称的なリスクを恐れ、実際の必要量より多くのリソースを申請しがちです。
- コスト増に加え、他者が活用できた容量が浪費されます。
- その結果、誰もが 2〜3 倍 のリソースを申請する傾向があります。
- 不足したリクエスト(Under-provisioning)
- ジョブが失敗し、数日分の作業成果を失う致命的な結果をもたらします。
- 実測データによるコストの巨額化
- 国内規模の HPC クラスターを 1 ヶ月間計測した結果、59% の計算リソースが浪費していました。
- オンドマンドクラウド価格換算で、単一クラスターにつき 1 ヶ月約 850 万ドル分の損失が発生します。
このパターンは、量的金融基金や AI リサーチラボなど、大規模コンピューティング業界全体に共通しています。
🚀 Expanse の開発背景と実績
当社の 4 名は、最大の量的金融基金や HPC 施設で HPC および GPU トレーニングワークロードの実運用経験があります。
- イスマエルの研究経歴
- アディアン・ジャクソン氏の下、エディンバラの並列計算センター(EPCC)にて研究。
- 多様性のある入力に対応できる 最初の HPC リソース予測モデル を開発しました。
- モデルの性能評価(EPCC データセット)
- 既存の基線手法と比較して 34% も優れた精度を達成。
- 最先端汎用 LLM と同タスクをプロンプトで実行した場合、約 8 倍 のパフォーマンスを示しました。
これらの結果から、本課題はソフトウェアによる解決が可能であることが確信されました。
⚙️ Expanse の動作原理
Expanse はクラスターの各ノードにインストールされ、SLURM(または K8s スケジューラ)にフックします。
- データ収集
- リアルタイムのハードウェアテレメトリ(DCGM、CUPTI、Cgroups、ネットワーク/IO モニタリングなど)を収集。
- 独自のハードウェア性能エンベッディングを作成。
- ワークロード分析
- SLURM/K8s を経由して提出されるあらゆるワークロードをスキャン(ライフサイクルに統合)。
- 収集したデータを深層学習モデルに入力し、以下の情報を提供します:
- 提出時の正確なリソース推奨
- 障害検知
- 最適化提案
- 精度の向上メカニズム
- クラスター固有のモデルは、実行されるワークロードが増えるにつれて精度が向上します。
- リスク対応設計
- ジョブクラッシュは過剰な割り当て(over-provision)を優先するように訓練されています。
- ユーザーにリスク許容度に応じて選択できるよう、不確実性の推定値と p90 指標 を提供します。
✨ クラスター利用者に提供する 3 つの機能
1. 提出時のリソース予測
ジョブが実際に必要な資源を、信頼区間と共に予測します。
- GPU VRAM、利用率、メモリ、CPU、ウォール時間の予測
- OOM(Out of Memory)やメモリー関連障害の予兆提示
- コードライン単位の最適化提案によるハードウェア利用率の最大化
2. ライブ可観測性
ジョブ実行中のテレメトリ情報をダッシュボードで可視化します。
- ハードウェア内での状況の把握
- スタックプロファイリング視点からのワークロード状態の直感的理解
- 単けた%以下という低いオーバーヘッド で動的プロファイリングを実現
3. 障害診断
ワークロード失敗時に、全データを基にスタックプロファイリングと相関分析を行います。
- 解決志向のログ提示(1〜2 行構成)
- 「何が」「なぜ」起こったかだけでなく、コードライン単位の具体的な修正方法 を提示
🆚 なぜ Expanse か?従来のアプローチとの違い
現状最良(state-of-the-art)のアプローチは主に以下のものですが、限界があります:
| 既存アプローチ | 問題点 |
|---|---|
| SLURM 会計 DB(sacct) ユーザーごとの歴史的 averages | 新しいワークロードやコードレベルの変更に対して極めて不正確。 |
| 手書きされたルール・ヒューリスティクス | 柔軟性に欠ける。 |
| 最先端の LLM コーディングエージェント | ソースコードとハネスを与えられても、実際の精度は非常に低かった。 |
性能比較結果
当社の Expanse は、当時の最先端モデル(Gemini 3.5 Pro、Claude Opus 4.8、GPT 5.5、Codex 5.3)に対して 8 倍 も上回るパフォーマンスを達成しました。
モデルサイズ依存限界について
- モデルサイズや反復回の増加 ≠ 精度改善: 相関関係は見出せず、Claude Haiku が Opus よりも優位に働いた例もあります。
- LLM の弱点: コード記述や超パラメータスイープには強いですが、自動リサーチのためのフルエージェントループ を完了させるには Expanse の支援が必要です。
- 入力模態の不足: 真空中での推論であり、以下のネイティブなモーダル入力をサポートしていません:
- ソースコード(データのフローと計算パターンの理解に不可欠)
- ハードウェアテレメトリおよびトポロジー(クラスターの性能パターン把握必須)
したがって、LLM を継続的に更新し、新しいハードウェアやワークロードパターンにも柔軟に対応する Expanse の内部モデルの方が適しています。 LLM 評価の詳細:公式 X (Twitter) トimeline
🤝 クライアントオンボーディング
現在、有料パイロットとして顧客のオンボーディングを進めています。
- 価格設定: クラスターごと
- 導入プロセス:
- 最初に 2 ヶ週の計測ウィンドウ を提供。
- インストールおよびデータ摂取を実施。
- データセンター運営者に対して、回収可能な容量レポートを提出。
- 固定された月額費用で一つの部署での有料パイロット展開へ移行。
- 料金プラン: 範囲が拡大しない限り、同じレートで更新されます。
ご応募・お問い合わせ対象
HPC/GPU クラスター(SLURM または K8s、GPU 100 以上)を運用されている方への是非をお話ししたいです。
- クラスターの一部に週単位でインストールを行い、回復可能な容量について書面報告をお送りします。
- 継続するかのご判断をお委ねしています。
- 過去の同様の試みで成果が上がらなかった場合も、理由をお聞かせいただければ大歓迎です。
- ポストに記載されていないが予測してほしい障害モードがある場合は、スレッドへの書き込みを歓迎します(モデルの検知可否や追加要件について返信いたします)。
Hacker News の投稿側当事者であることに驚いておりますが(笑)、クラスターを運用されていない方にもご意見を聞かせてください。当社のアプローチに対する考え方や、クラスターでのワークロード実行経験、あるいは懸念点など、どのようなご指摘も歓迎いたします。
Tally Ho!