_launch HN: Expanse (YC P26) – 未利用の GPU リソースを開放する_

2026/06/01 22:05

_launch HN: Expanse (YC P26) – 未利用の GPU リソースを開放する_

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Expanse は、Ismaeel、Eren、Yafet、Nikodem の 4 人が構築した革新的なツールであり、SLURM または Kubernetes を使用する HPC および GPU クラスターの有効容量を増加させることを目的としています。本ツールは、ユーザーが失敗を避けるためにリソースの要求を実際の必要量の 2~3 倍に上乗せするといった重要な非効率性を解消します。その結果、データセンターの有効稼働率はわずか 30%~40% に留まっていました。国の規模を持つクラスターで行われた測定では、59% の計算リソースが無駄に消費され、年間約 850 万ドルの損失が生じていることが示されました。Expanse は、すべてのノードで稼働し、ライブシステムテレメトリを収集し、深層学習モデルを用いて提出されたワークロードを分析することでこの課題を解決します。これらのモデルはクラスターごとに微調整(ファインチューニング)されています。このアプローチにより、既存のジョブ提出方法を変更することなく、リソース予測(例えば GPU バッファメモリ量やウォールタイム)、コードレベルの修正提案を含む故障診断、リスク許容度に応じて調整された不確実性推定が実現します。この手法は、先端的な汎用 LLM の予測タスクにおいて約 8 倍優れた性能を発揮します。採用を促すため、Expanse では固定された月額料金で永久インストール前に回復可能な容量を報告するための 2 ヶ月の測定期間を含む有料のパイロットプログラムを提供しており、クラウド料率の上昇に合わせて組織が運用コストを大幅に削減できるスケーラブルなパスウェイを実現しています。

本文

Expanse:HPC/GPU クラスターの効率的なリソース最適化ソリューション

イスマエル、エレン、ヤフェト、ニコデムからのご挨拶です。
Kubernetes や SLURM などのスケジューラを用いて動作する HPC/GPU クラスターの実効容量を増大させるため、「Expanse」 (https://expanse.sh/) を開発しました。

クラスターがジョブを受け取る前に、ソースコード、ジョブ提出スクリプト、および実行予定のハードウェア情報を解析し、以下の点を達成します:

  • 必要なリソースの正確な予測
  • 潜在的な障害の早期検知
  • コードライン単位の最適化提案の提供

📉 課題:データセンターの実効利用率の低さ

データセンターの実効利用률은は概ね 30% から 40% に留まっており、以下の問題が発生しています。

  • 過剰なリクエスト(Over-provisioning)
    • ユーザーは非対称的なリスクを恐れ、実際の必要量より多くのリソースを申請しがちです。
    • コスト増に加え、他者が活用できた容量が浪費されます。
    • その結果、誰もが 2〜3 倍 のリソースを申請する傾向があります。
  • 不足したリクエスト(Under-provisioning)
    • ジョブが失敗し、数日分の作業成果を失う致命的な結果をもたらします。
  • 実測データによるコストの巨額化
    • 国内規模の HPC クラスターを 1 ヶ月間計測した結果、59% の計算リソースが浪費していました。
    • オンドマンドクラウド価格換算で、単一クラスターにつき 1 ヶ月約 850 万ドル分の損失が発生します。

このパターンは、量的金融基金や AI リサーチラボなど、大規模コンピューティング業界全体に共通しています。

🚀 Expanse の開発背景と実績

当社の 4 名は、最大の量的金融基金や HPC 施設で HPC および GPU トレーニングワークロードの実運用経験があります。

  • イスマエルの研究経歴
    • アディアン・ジャクソン氏の下、エディンバラの並列計算センター(EPCC)にて研究。
    • 多様性のある入力に対応できる 最初の HPC リソース予測モデル を開発しました。
  • モデルの性能評価(EPCC データセット)
    • 既存の基線手法と比較して 34% も優れた精度を達成。
    • 最先端汎用 LLM と同タスクをプロンプトで実行した場合、約 8 倍 のパフォーマンスを示しました。

これらの結果から、本課題はソフトウェアによる解決が可能であることが確信されました。

⚙️ Expanse の動作原理

Expanse はクラスターの各ノードにインストールされ、SLURM(または K8s スケジューラ)にフックします。

  • データ収集
    • リアルタイムのハードウェアテレメトリ(DCGM、CUPTI、Cgroups、ネットワーク/IO モニタリングなど)を収集。
    • 独自のハードウェア性能エンベッディングを作成。
  • ワークロード分析
    • SLURM/K8s を経由して提出されるあらゆるワークロードをスキャン(ライフサイクルに統合)。
    • 収集したデータを深層学習モデルに入力し、以下の情報を提供します:
      • 提出時の正確なリソース推奨
      • 障害検知
      • 最適化提案
  • 精度の向上メカニズム
    • クラスター固有のモデルは、実行されるワークロードが増えるにつれて精度が向上します。
  • リスク対応設計
    • ジョブクラッシュは過剰な割り当て(over-provision)を優先するように訓練されています。
    • ユーザーにリスク許容度に応じて選択できるよう、不確実性の推定値と p90 指標 を提供します。

✨ クラスター利用者に提供する 3 つの機能

1. 提出時のリソース予測

ジョブが実際に必要な資源を、信頼区間と共に予測します。

  • GPU VRAM、利用率、メモリ、CPU、ウォール時間の予測
  • OOM(Out of Memory)やメモリー関連障害の予兆提示
  • コードライン単位の最適化提案によるハードウェア利用率の最大化

2. ライブ可観測性

ジョブ実行中のテレメトリ情報をダッシュボードで可視化します。

  • ハードウェア内での状況の把握
  • スタックプロファイリング視点からのワークロード状態の直感的理解
  • 単けた%以下という低いオーバーヘッド で動的プロファイリングを実現

3. 障害診断

ワークロード失敗時に、全データを基にスタックプロファイリングと相関分析を行います。

  • 解決志向のログ提示(1〜2 行構成)
  • 「何が」「なぜ」起こったかだけでなく、コードライン単位の具体的な修正方法 を提示

🆚 なぜ Expanse か?従来のアプローチとの違い

現状最良(state-of-the-art)のアプローチは主に以下のものですが、限界があります:

既存アプローチ問題点
SLURM 会計 DB(sacct)
ユーザーごとの歴史的 averages
新しいワークロードやコードレベルの変更に対して極めて不正確。
手書きされたルール・ヒューリスティクス柔軟性に欠ける。
最先端の LLM コーディングエージェントソースコードとハネスを与えられても、実際の精度は非常に低かった。

性能比較結果

当社の Expanse は、当時の最先端モデル(Gemini 3.5 Pro、Claude Opus 4.8、GPT 5.5、Codex 5.3)に対して 8 倍 も上回るパフォーマンスを達成しました。

モデルサイズ依存限界について

  • モデルサイズや反復回の増加 ≠ 精度改善: 相関関係は見出せず、Claude Haiku が Opus よりも優位に働いた例もあります。
  • LLM の弱点: コード記述や超パラメータスイープには強いですが、自動リサーチのためのフルエージェントループ を完了させるには Expanse の支援が必要です。
  • 入力模態の不足: 真空中での推論であり、以下のネイティブなモーダル入力をサポートしていません:
    • ソースコード(データのフローと計算パターンの理解に不可欠)
    • ハードウェアテレメトリおよびトポロジー(クラスターの性能パターン把握必須)

したがって、LLM を継続的に更新し、新しいハードウェアやワークロードパターンにも柔軟に対応する Expanse の内部モデルの方が適しています。 LLM 評価の詳細:公式 X (Twitter) トimeline

🤝 クライアントオンボーディング

現在、有料パイロットとして顧客のオンボーディングを進めています。

  • 価格設定: クラスターごと
  • 導入プロセス:
    1. 最初に 2 ヶ週の計測ウィンドウ を提供。
    2. インストールおよびデータ摂取を実施。
    3. データセンター運営者に対して、回収可能な容量レポートを提出。
    4. 固定された月額費用で一つの部署での有料パイロット展開へ移行。
  • 料金プラン: 範囲が拡大しない限り、同じレートで更新されます。

ご応募・お問い合わせ対象

HPC/GPU クラスター(SLURM または K8s、GPU 100 以上)を運用されている方への是非をお話ししたいです。

  • クラスターの一部に週単位でインストールを行い、回復可能な容量について書面報告をお送りします。
  • 継続するかのご判断をお委ねしています。
  • 過去の同様の試みで成果が上がらなかった場合も、理由をお聞かせいただければ大歓迎です。
  • ポストに記載されていないが予測してほしい障害モードがある場合は、スレッドへの書き込みを歓迎します(モデルの検知可否や追加要件について返信いたします)。

Hacker News の投稿側当事者であることに驚いておりますが(笑)、クラスターを運用されていない方にもご意見を聞かせてください。当社のアプローチに対する考え方や、クラスターでのワークロード実行経験、あるいは懸念点など、どのようなご指摘も歓迎いたします。

Tally Ho!

同じ日のほかのニュース

一覧に戻る →

2026/06/02 1:31

最新のインスタグラムの「 exploits(バグ)」で最もユニークなのは私がこれまでに見た中で一番奇妙なものです。

## 日本語翻訳: 洗練されたセキュリティ上の不備により、ハッカーらは警報を触発することなく Instagram のアカウントを乗っ取り、@obamawhitehouse や @ocmssf のような高価値なユーザー名を対象に Meta の「Takeover Flow」を利用した。攻撃者は被害者のユーザー名を使用してプロセスを開始し、VPN または代理サーバーを介して請求をアカウントの報告された都市の近くから経路化することで、位置情報に基づくセキュリティを回避した。彼らは Meta の AI サポートチャットボットに連絡し、アカウントが侵害されたことをごりごしくれ、検証コードを受信するメールアドレスを任意で指定することを要求した。Instagram のシステムは、この要求されたメールアドレスが以前にそのアカウントと関連付けられていたかどうかを検証しなかった。AI がコードを送信すると、それはパスワードリセットリンクのトリガーとしての検証に使われ、完全な所有権が付与された。Meta のサポート AI はビデオでの自己撮影(生真面目)を身分証明として要求する可能性があるが、ターゲットのフィードから単純に AI でアニメーション化された公開写真は、このチェックを成功裡に回避した。回復フローは、そのリクエストを「本当の」所有者による完全なアカウントリセットとして扱い、2FA を完全に回避し、メール、テキスト、またはプッシュ通知を触発することなく進んだ。正当なユーザーのセッションは沈黙的に破棄され、連絡先情報が攻撃者の情報で置換されたため、標準的なチャネルでの回復は不可能になった。ブラックマーケットの Telegram グループが「アカウント乗っ取り」サービスを提供し始め、高価値なハンドルを利活用した。この脆弱性は数週間、あるいは数ヶ月間 Meta が修復するまで稼働していたと報告されており、その地下市場は一瞬で消え失せた。実験的な AI サポートグループに参加しているユーザーは、自動化されたアシスタンスを手動で無効化できないため、引き続き曝されている。この事象は、将来的な回復プロセスが人工知能や位置情報に基づく回避技術によって容易に操作されるのを防ぐためには、自動的なりすましおよびリモートスプーフィング攻撃に対するより強力な検証プロトコルの強化を強く示唆している。

2026/06/02 5:40

デバッグプロジェクト

## 日本語訳: Debug は、地球上で最も致命的な動物の一つである*Aedes aegypti*蚊の個体群を安全に抑制し、デング熱、ジカ熱、黄熱病、チクングニア熱といった致死性の疾患に対する革命的な対策を開拓しています。化学物質や遺伝子改変に依存する従来のアプローチとは異なり、当社の技術は自然存在する細菌*Wolbachia*を運ぶ雄性不稔の雌蚊を放出します。この生物は、これらの雄蚊が野生の雌蚊と繁殖することを妨げ、毒物を導入することなく個体群を自然に減少させます。吸血せず病気を媒介しない雄蚊であるため、「良い虫」としてこれを放出することは、立ち枯れた水の撤去や効果低下しつつ毒性が強まり過ぎる殺虫剤の使用といった陳腐な手法の持続可能な代替手段を提供します。現在、ほとんどの蚊媒感染症には効果的なワクチンがないことを考慮すると、この解決策は不可欠な新たなアプローチとなります。科学専門知識を国際パートナーと組み合わせ、Debug は地域コミュニティおよび政府との協力のもとで放出規模の拡大を目指しています。その最終的な影響は大きいです:刺す蚊の数を減らして病気の伝播率を下げ、安全でスケーラブルな生物学的制御戦略を通じて数百万人の人々がより長く健康な生活を送るのを支援します。 ## 元テキスト: ## Summary: Debug is pioneering a revolutionary method to combat deadly diseases like dengue, Zika, yellow fever, and chikungunya by safely suppressing populations of *Aedes aegypti* mosquitoes, which are among the deadliest animals on Earth. Unlike traditional approaches relying on chemicals or genetic modification, their technology releases sterile male mosquitoes carrying the natural bacterium *Wolbachia*. This organism prevents these males from reproducing with wild female counterparts, naturally causing population decline without introducing toxins. Since male mosquitoes do not bite or spread disease, releasing these "good bugs" offers a sustainable alternative to outdated methods like clearing standing water and using pesticides that are losing efficacy or becoming too toxic. Given that most mosquito-borne illnesses currently lack effective vaccines, this solution provides a vital new approach. By leveraging scientific expertise alongside international partners, Debug aims to scale up releases in collaboration with local communities and governments. The ultimate impact is significant: reducing biting mosquitoes to lower disease transmission rates, thereby helping millions of people live longer, healthier lives through a safe and scalable biological control strategy.

2026/06/02 1:41

スタンフォード大学CS336コース用 AI エージェントガイドライン

## 日本語翻訳: 本ドキュメントは、スタンフォード大学の CS336 コースにおいて AI コーディングアシスタントが従う厳格な倫理的境界線を設定する:すなわち、これらは何らかのコードを書いたり課題を直接解決したりしてはならない。むしろ、これらのエージェントは、学生による学習体験を維持することを目的とした教学補助手段としてのみ機能すべきである。本コースが手動作業としての Python と PyTorch の実装に大きく依存し、かつ支援枠組みが限られていることを考慮すると、AI の主たる役割は、公式の講義資料とデバッグツールの活用を通じて背後にある理論を説明し、エッジケースにおけるロジックを検証し、学生を導くことにある。 ユーザーから直接の修正、TODO 節の完了、またはリポジトリへの編集といった要請を受けた場合、エージェントはその要求を拒否し、概念の説明や、shape アサーションやアブレーションなどの健全性チェックを提案することで方向転換しなければならない。この方針は、学生がトラン스포ーマー、最適化アルゴリズム、トレーニングループなど複雑なコンポーネントの習得という核心的学習目標を回避することを防止するものである。システムはこの方針を強制するためには、明確な質問を投げかけ、公式ドキュメントを参照し、単に「如何做るか」を届けるのではなく、技術的決定の背後にある「なぜか」を説明することで、デバッグと概念的理解を通じて真の能力を確保するよう求める。

_launch HN: Expanse (YC P26) – 未利用の GPU リソースを開放する_ | そっか~ニュース