**Karpathy の自己学習研究のスケーリング:エージェントが GPU クラスターを手にしたら何が起こるか**

- **背景**
  - Karpathy の研究は自律型エージェントとディープラーニングに焦点を当てています。
  - スケールアップは、単一の GPU から大規模な GPU クラスターへ移行することです。

- **重要な検討事項**
  - *並列性*: ノード間でトレーニングを分散し、ワークロードをバランスさせます。
  - *通信オーバーヘッド*: GPU 間のデータ転送を最小限に抑えます。
  - *同期*: モデル更新が一貫していることを保証します(例:Horovod や NCCL を使用)。
  - *フォールト・タレランス*: チェックポイントとリカバリ機構を実装します。

- **期待される成果**
  - 計算能力の増大により、収束が速くなります。
  - より大きなモデルを訓練し、1 エポックあたりでより多くのデータを処理できます。
  - スケール時にはハイパーパラメータ調整が難しくなる可能性があります。

- **実践的手順**
  1. 高帯域幅インターコネクト(InfiniBand)を備えたクラスターを構築します。
  2. 分散トレーニングフレームワーク(PyTorch Distributed、TensorFlow MirroredStrategy 等)を設定します。
  3. 新しいハードウェアに合わせてバッチサイズと学習率を最適化します。
  4. GPU の利用状況を監視し、リソース配分を調整します。

- **今後の方向性**
  - 混合精度トレーニングを検討してスループットをさらに向上させます。
  - 超大規模アーキテクチャに対するモデル並列化を探求します。
  - 異なるクラスター構成のコスト・ベネフィットを評価します。

*要約終了。*

2026/03/20 1:55

**Karpathy の自己学習研究のスケーリング:エージェントが GPU クラスターを手にしたら何が起こるか** - **背景** - Karpathy の研究は自律型エージェントとディープラーニングに焦点を当てています。 - スケールアップは、単一の GPU から大規模な GPU クラスターへ移行することです。 - **重要な検討事項** - *並列性*: ノード間でトレーニングを分散し、ワークロードをバランスさせます。 - *通信オーバーヘッド*: GPU 間のデータ転送を最小限に抑えます。 - *同期*: モデル更新が一貫していることを保証します(例:Horovod や NCCL を使用)。 - *フォールト・タレランス*: チェックポイントとリカバリ機構を実装します。 - **期待される成果** - 計算能力の増大により、収束が速くなります。 - より大きなモデルを訓練し、1 エポックあたりでより多くのデータを処理できます。 - スケール時にはハイパーパラメータ調整が難しくなる可能性があります。 - **実践的手順** 1. 高帯域幅インターコネクト(InfiniBand)を備えたクラスターを構築します。 2. 分散トレーニングフレームワーク(PyTorch Distributed、TensorFlow MirroredStrategy 等)を設定します。 3. 新しいハードウェアに合わせてバッチサイズと学習率を最適化します。 4. GPU の利用状況を監視し、リソース配分を調整します。 - **今後の方向性** - 混合精度トレーニングを検討してスループットをさらに向上させます。 - 超大規模アーキテクチャに対するモデル並列化を探求します。 - 異なるクラスター構成のコスト・ベネフィットを評価します。 *要約終了。*

RSS: https://news.ycombinator.com/rss

要約

日本語訳

Claude Code は自律型ハイパーパラメータ探索エージェントで、16GPUのKubernetesクラスター上で約 8時間にわたり910実験を行い、val_bpb を 1.003 から 0.974 に減少させました — これは 2.87 % の改善 に相当します。
エージェントの 並列階乗グリッド(波ごとに10〜13回実行) は、順次探索では見逃される相互作用効果を明らかにし、モデル幅(アスペクト比 AR = 96 → 次元 768)のスケーリングが最大の利得をもたらすことを発見しました。また、オプティマイザ設定も調整し、特に muon_beta2 = 0.98 (beta1 = 0.70)としました。

探索は以下の5フェーズで展開されました:

  1. ハイパーパラメータスイープ(約200実行) – ベースライン調整。
  2. アーキテクチャ発見(約200〜420実行) – 深さと幅を探索。
  3. 広いモデルの微調整(約420〜560実行) – AR を 96 に増加。
  4. オプティマイザチューニング(約560〜700実行) – ベータ、学習率(matrix_lr = 0.05, embedding_lr = 0.6, scalar_lr = 0.5, final_lr_frac = 0.05)、重み減衰 = 0.08、warmdown_ratio = 0.6、muon momentum = 0.95、ns_steps = 5、beta2 = 0.98、および SLウィンドウパターン を調整。
  5. 減少するリターンズフェーズ(約700〜910実行) – 最終微調整。

並列実行は検証に H200 GPU、迅速なスクリーニングにはコストの低い H100 GPU を活用し、スループットを約 9倍向上(GPU1当たり10実験/時間対16GPUで90実験/時間)しました。

最適構成は AR = 96、深さ = 8、総バッチサイズ 2¹⁸ で、すぐにデプロイ可能なモデルを提供します。この探索は 順次ベースラインの約72時間のシミュレーション の代わりに 8時間 で完了し、費用は約 $309(Claude Code API ≈ $9 + GPU計算 <$300)でした。

この結果は、大規模かつGPUベースのハイパーパラメータ探索を実施するチームにとって、顕著な生産性と予算面でのメリットがあることを示しています。

本文

概要

Claude Code を SkyPilot 経由で Kubernetes クラスター(13×H100、3×H200)に 16 台の GPU を割り当て、夜間実行しました。約 8 時間でエージェントは ≈910 件の実験を提出し(うち ≈700 件が有効結果)、val_bpb1.003 から 0.974 に改善させました。これはベースラインより 2.87 % の向上で、シミュレートした順次実行の約 9 倍高速です。


Autoresearch の仕組み

ファイル用途
prepare.py
読み取り専用:データダウンロード、トークナイザー学習、データローダーと評価関数を提供
train.py
編集可能:モデル、オプティマイザ、トレーニングループがここにあり、エージェントが変更できる唯一のファイル
instructions.md
エージェントのプレイブック:何を変えられるか、評価方法、変更を保持または破棄するタイミング

制約: 実験ごとに 5 分間の壁時計トレーニング予算。目標は val_bpb を最小化すること。


順次実行のボトルネック

  1. train.py
    の編集
    – 約 30 秒
  2. 実行(5 分)
  3. 読み込み & 計画 – 約 30 秒

5 分間のトレーニングステップが支配的で、エージェントはその間アイドル状態になり、複数 GPU を使った組み合わせテストや機会損失を被ります。


SkyPilot で並列化

SkyPilot は YAML (

experiment.yaml
) から GPU クラスターをプロビジョニングし、エージェントが
sky launch
(プロビジョン)と
sky exec
(パイプライン)でジョブを起動できるようにします。
16 台の GPU を使うと:

アクション結果
プロビジョニング13×H100、3×H200
スループット約 90 実験/時(1 台で約 10/h の 9 倍)

実験フェーズ

フェーズ実験数主な発見val_bpb
1 – ハイパーパラメータ探索200• バッチサイズ = 2¹⁸、Adam ベータ (0.9/0.95)、重み減衰 = 0.08、softcap100.981
2 – アーキテクチャ発見2206 種類のアスペクト比を一波でテスト;AR = 96(model_dim = 768)が最良0.977
3 – 幅広モデルの微調整140Warmdown、行列 LR、重み減衰、Muon ステップ0.975 (H200)
4 – オプティマイザチューニング140Muon β₂ = 0.98 が最終段階で最大改善をもたらす0.974
5 – 減少するリターン190最終 LR、Warmdown 比率、スカラー/埋め込み LR の探索;1 実験あたり < 0.0001 の向上~0.974

ベスト構成

# アーキテクチャ
ASPECT_RATIO   = 96          # model_dim = 8 * AR = 768
DEPTH          = 8           # Transformer 層数
WINDOW_PATTERN = "SL"        # Sliding + Local attention

# トレーニング
TOTAL_BATCH_SIZE = 2**18     # 約 524K tokens/step

# 学習率
MATRIX_LR   = 0.05           # Muon LR for weight matrices
EMBEDDING_LR = 0.6           # AdamW LR for token embeddings
SCALAR_LR    = 0.5           # AdamW LR for residual mixing scalars

# オプティマイザ
ADAM_BETAS   = (0.70, 0.95)
WEIGHT_DECAY = 0.08
WARMDOWN_RATIO = 0.6
FINAL_LR_FRAC  = 0.05

# Muon パラメータ
MOMENTUM    = 0.95
NS_STEPS    = 5
BETA2       = 0.98

並列化 vs. 順次戦略

GPU 数探索スタイルスループット(exp/hr)
1グリーディ hill‑climbing~10
16波ごとの階乗グリッド~90

並列化により相互作用効果を即座に検出でき、局所最適での停滞を防げます。例:フェーズ 2 では AR = 64–112 を一波でテストし、エージェントは順次試行よりも早く AR = 96 を選択しました。


異種ハードウェア活用

エージェントは H200 が 5 分間のウィンドウで約 9 % 多いトレーニングステップを実行できることを発見。二段階戦略を採用しました:

  1. H100 で >10 仮説を安価に並列テスト
  2. 上位 2–3 を H200 に昇格させて確認実行

この自動検証層はハードウェア固有のランキング(例:

FINAL_LR_FRAC=0.03
が H100 では 0.05 より良いが、H200 ではそうでない)を浮き彫りにしました。


コスト & スケール

リソース時間単価/時費用
13×H1008h$2約 $200
3×H2008h$2.30約 $60
Claude Code API8h約 $9

合計 ≈ $269。これは同等の GPU 時間をクラウドで借りた場合の標準請求額よりも大幅に低いです。


自分のクラスターで始める

# リポジトリをクローン
git clone https://github.com/karpathy/autoresearch.git
git clone https://github.com/skypilot-org/skypilot.git
cd autoresearch

# 実験ファイルをコピー
cp ../skypilot/examples/autoresearch/experiment.yaml .
cp ../skypilot/examples/autoresearch/instructions.md .

# データ準備(1 回だけ)
pip install uv && uv sync && uv run prepare.py

# SkyPilot スキルをエージェントにインストール
# (https://docs.skypilot.co/en/latest/getting-started/skill.html を参照)

# instructions.md を指示先として設定し、実行開始。

experiment.yaml
infra:
に対象バックエンド(
k8s
aws
など)を指定します。エージェントは SkyPilot スキルを取得し、クラスターをプロビジョニングし、実験を提出・ログ読み取り・勝利変更のコミットを行い、停止まで繰り返します。


次のステップ

  • SkyPilot リポジトリ をスター&ウォッチ
  • @skypilot_org を Twitter でフォローするか、Slack コミュニティに参加してアップデートを受け取る

楽しい探索を!

同じ日のほかのニュース

一覧に戻る →

2026/03/20 5:33

コックピットは、サーバー用のウェブベースのグラフィカルインターフェイスです。

## Japanese Translation: **Cockpit** は、Linux 管理者がオペレーティングシステムから直接サーバーを管理できる軽量でブラウザベースのインターフェイスです。OS 内で動作し、Debian、Fedora、および RHEL など主要なディストリビューションに対応しており、コンテナの起動、ストレージやネットワークの設定、ログの確認、ブラウザを離れずにターミナルとグラフィカルコントロール間で切替えなどが可能です。 ユーザーは Cockpit からでも従来のシェルからでもサービスをシームレスに開始・停止でき、端末で発生したエラーは自動的に Cockpit のジャーナルインターフェイスに表示されます。 プロジェクトはリモート管理もサポートしており、ユーザーは SSH 経由で Cockpit がインストールされた他のマシンを追加・管理できるため、ホスト切替が簡単です。コミュニティサポートは Matrix チャネル(#cockpit:fedoraproject.org)とメールリストで提供されます。ドキュメントにはツールの使い方だけでなくコードベースへの貢献方法も網羅しており、ガイディングプリンシプル、リリースノート、およびプライバシーポリシーが含まれています。 複数の Linux ディストリビューションにわたる統一で使いやすい GUI を提供することで、Cockpit はサーバー管理を効率化し、ドキュメントと活発なコミュニケーションチャネルを通じて継続的な開発者貢献を促進することを目指しています。

2026/03/19 22:05

**Astral が OpenAI に参入**

## Japanese Translation: **(欠落していた詳細を補完)** ### 要約 Astral は、オープンソースの Python ツールを存続させつつ OpenAI の Codex チームに参加することに合意し、そのツールチェーンをモダンな Python 開発の中心に位置付けました。この取引は Astral の創業者が発表し、Python エコシステムの生産性を少なくとも 1 % 向上させる高レバレッジ戦略を強調しています。Ruff(高速リンター)、uv(依存関係解決ツール)、ty といった人気ツールへの継続的なサポートが含まれ、これらを Codex の AI コーディングアシスタントに統合する計画です。Astral のツールチェーンはゼロから数億件の月間ダウンロードへと成長し、Accel が主導した Casey Aylward 氏によるシード資金調達と Andreessen Horowitz が牽引した Jennifer Li 氏によるシリーズ B 資金調達で支えられています。創業者は Astral チームのユーザー重視の製品品質に感謝し、今後も高い基準を維持するとともに、ユーザーの信頼への感謝を表明しました。買収後、Astral はオープンソース提供物の開発を継続し、それらを Codex と統合し、ソフトウェアエンジニアリングにおける影響力を拡大します。これにより、開発者・企業・広範なエコシステムは、生産性を加速させる AI 強化型の堅牢な Python ユーティリティ―基盤となるツールセット―を享受できます。

2026/03/20 2:16

Google、未認証Androidアプリをサイドロードするための新しい24時間プロセスを発表

## Japanese Translation: Googleは2025年後半にAndroid向けの開発者認証プログラムを開始し、開発者が認証されていない場合はサイドロードされたアプリをブロックすることでマルウェアリスクを低減することを目指します。開発者は本人確認書類を提出し、アプリ署名キーをアップロードし、25ドルの手数料を支払う必要があります。 ユーザーは「未認証パッケージを許可」オプションを有効にして認証を回避できます。設定方法は、ビルド番号を7回タップして開発者向けオプションを解除し、スイッチを切り替えてPIN/パスワードで確認し、デバイスを再起動します。その後24時間待ち、次に「一時的に許可」または「無期限に許可」を選択します。24時間の遅延は、高度なソーシャルエンジニアリング攻撃を抑止するためです。 Googleは非Playソースからマルウェアに遭遇する確率が約50倍高いと引用し、このプログラムでそのリスクを低減すると主張しています。検証機能はすでにAndroid 16.1(2025年後半にリリース)に組み込まれており、全てのサポート対象デバイスで利用可能です。実施開始はブラジル、シンガポール、インドネシア、タイで2025年9月から行われ、2026年には世界中へ展開されます。 このプログラムは手数料などのハードルを追加するため、制裁対象国の開発者にとって不利になる可能性がありますが、Googleはその方針がそのような開発者を排除することを意図していないとし、検証済み開発者リストを非永続化に保ち法的課題を回避すると述べています。プライバシー擁護派は検証済み開発者のデータベースについて懸念を示し続けています。

**Karpathy の自己学習研究のスケーリング:エージェントが GPU クラスターを手にしたら何が起こるか** - **背景** - Karpathy の研究は自律型エージェントとディープラーニングに焦点を当てています。 - スケールアップは、単一の GPU から大規模な GPU クラスターへ移行することです。 - **重要な検討事項** - *並列性*: ノード間でトレーニングを分散し、ワークロードをバランスさせます。 - *通信オーバーヘッド*: GPU 間のデータ転送を最小限に抑えます。 - *同期*: モデル更新が一貫していることを保証します(例:Horovod や NCCL を使用)。 - *フォールト・タレランス*: チェックポイントとリカバリ機構を実装します。 - **期待される成果** - 計算能力の増大により、収束が速くなります。 - より大きなモデルを訓練し、1 エポックあたりでより多くのデータを処理できます。 - スケール時にはハイパーパラメータ調整が難しくなる可能性があります。 - **実践的手順** 1. 高帯域幅インターコネクト(InfiniBand)を備えたクラスターを構築します。 2. 分散トレーニングフレームワーク(PyTorch Distributed、TensorFlow MirroredStrategy 等)を設定します。 3. 新しいハードウェアに合わせてバッチサイズと学習率を最適化します。 4. GPU の利用状況を監視し、リソース配分を調整します。 - **今後の方向性** - 混合精度トレーニングを検討してスループットをさらに向上させます。 - 超大規模アーキテクチャに対するモデル並列化を探求します。 - 異なるクラスター構成のコスト・ベネフィットを評価します。 *要約終了。* | そっか~ニュース