**NanoGPT スロールン:10倍のデータ効率と無限計算**

2026/03/20 3:51

**NanoGPT スロールン:10倍のデータ効率と無限計算**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

NanoGPT の “Slowrun” アンサンブル戦略―多くの大型モデルを並列で訓練し、各モデルをより長いエポック数で実行させることにより、1億トークンで約10倍のデータ効率を達成し、標準的なスケーリング法則が予測する(約10億トークン)をはるかに上回っています。アンサンブル訓練により、モデルは通常の12エポックを超えて訓練でき、PR #26 で18エポックへ拡張した結果、個別損失は3.295から3.310に増加しましたが、アンサンブル損失は3.185から3.166に減少し、より長い訓練が全体的な汎化性能を向上させることを証明しています。

チェーン知識蒸留(PR #31)によりさらにアンサンブル損失が3.126まで低下し、データ効率は7倍から8倍へと向上しました。これは、直前のモデルから蒸留された次々としたモデルを連続で訓練し、結合 CE/KL 損失を用いることで実現しています。正則化は不可欠であり、重み減衰を1.6(典型的な約0.1の16倍)まで上げ、ドロップアウト 0.1 と組み合わせることで 27億パラメータモデルへのスケーリングが可能になり、より大きなモデルではさらに強力な正則化が必要です。

構造的イノベーションも重要な貢献をしています:

  • Exclusive Self Attention (XSA) は自己値投影を除去します。
  • RoPE 切断(半分切り捨て)と単層誘導ヘッド用の partial key offset が位置情報処理を改善します。
  • 調整された残差ラムダ(PR #29)はレイヤーのスケーリングを微調整します。
  • U‑Net スキップ接続 は鏡像トランスフォーマーレイヤー(0–14 → 29–15)を結びます。
  • SwiGLU 活性化関数 が平方 ReLU を置き換えます。
  • 学習済み値埋め込み が別々の埋め込みテーブルを置き換えます。

チームはまた looped transformers を実装しています:訓練中半分で、レイヤー 15–24 を4回繰り返し、最終層をループさせずに誘導バイアスを高めています。これらの調整が総合的に優れた効率向上をもたらします。

NanoGPT の結果は、Chinchilla が推奨する約 5 M パラメータモデルで 1 億トークンの場合と比べて約3600倍離れており、これらの構造的および訓練イノベーションの力を強調しています。著者は、さらに突破があれば 1 年以内にデータ効率を 100 倍に上げる可能性があると予測しており、これは研究機関、商業 AI 開発者、およびトランスフォーマー ベースの産業全体で大規模言語モデルの訓練コストと時間を劇的に削減するでしょう。

本文

NanoGPT Slowrun – 数週間で10倍のデータ効率

NanoGPT Slowrun では、1.8 Bパラメータモデルを複数組み合わせたアンサンブル(合計18 Bパラメータ)により、100 Mトークンで10倍のデータ効率を実現しました。これは、通常ならば1 Bトークンが必要となる標準的な言語モデルベースラインと同等です。

データ効率は重要です。計算リソースがデータよりも急速に増大するため、現在のスケーリング法則では計算量とデータ量を比例して増やす必要があります。そうでなければ、知能は最終的にデータによってボトルネックとなります。この結果により、データではなく計算量でモデル性能を向上させることが可能になります。


主な観察点

  • これは現在のスケーリング法則(例:Chinchilla が示す100 Mトークンに対する約5 Mパラメータモデル、3600倍差)とは挙動が異なります。
  • 10倍のデータ効率を達成できるとは想像しづらかったものの、数週間で実現しました。
  • 一部のアーキテクチャ調整は経験的でしたが、他は理論に基づいており、大規模化にも応用可能です。

アンサンブル

アンサンブルは未だ十分に探求されていないスケーリング軸です。1つのモデルを学習する代わりに、多数のモデルを独立して訓練し、推論時に予測を集約します。これにより固定データ量で計算資源を増やし、一般化性能が向上します。

訓練ダイナミクス

実験エポック個別損失アンサンブル損失
PR #2612 → 183.295 → 3.3103.185 → 3.166

ベースモデルは訓練を重ねると過学習しますが、アンサンブルでは長期訓練を好みます。


チェーン蒸留

各新しいモデルを直前のモデルから順次蒸留します:

1. M₁ を D で CE 損失により学習。
2. k = 2 … K の間:
   a. M_{k-1} を教師として固定。
   b. M_k を D 上で以下の損失で訓練:
      L = (1 – α)·CE(M_k(x), y) + α·T²·KL(
            M_k(x)/T ‖ M_{k‑1}(x)/T )
      ただし α = 0.5, T = 1.0。
   c. 教師を破棄。
3. 推論時: K 個のモデルのロジットを平均。

前方モデルのみが教師になるため、メモリは一定に保たれ、訓練も高速です。

8つのチェーンモデルで:

モデル数個別損失アンサンブル損失
1~3.20
8~3.203.126

データ効率は7倍から8倍へ向上しました。


正則化

一般化は圧縮と相関があり、正則化はシンプルさの代理です。

  • 重み減衰を最大 1.6(標準的な値の約16倍)まで増やす。
  • ドロップアウト 0.1。
  • 過剰パラメータモデル(例:2.7 B → 1.8 B)はより強い正則化が必要です。

ループ

ループ付きトランスフォーマーは層を反復して表現を洗練します:

- 30 層のトランスフォーマーを通常訓練。
- 中間で層 15–24 を4回ループ:
   * 層 0–24 を実行
   * 層 15–24 を4回再実行
   * 層 25–29 を実行

後半層をループさせると逆に劣化します。これが最良の検証損失をもたらします。


アーキテクチャ変更

変更効果
Exclusive Self Attention (XSA) – 自己注意の値投影を除外PR #36
EMA + 重み減衰調整、半分トランケート RoPE、部分キーオフセット、残差 λ のチューニングPR #29
U‑Net スキップ接続(対称層間)PR #17
SwiGLU 活性化関数(平方 ReLU を置換)PR #12
入力埋め込みから学習した投影で値埋め込みを生成PR #11

これらの調整は一貫してデータ効率を向上させ、体系的なアーキテクチャ探索の価値を示しています。


今後

  • 100倍のデータ効率を目指す。新たな突破口が必要ですが、1年以内に実現可能と見込まれます。

貢献者

  • @ChinmayK0607
  • @not-nonymous
  • @shmublu
  • @zhiweixx
  • @em-see-squared
  • @ms337
  • @kvegesna
  • @akshayvegesna

← Qへ戻る

同じ日のほかのニュース

一覧に戻る →

2026/03/20 5:33

コックピットは、サーバー用のウェブベースのグラフィカルインターフェイスです。

## Japanese Translation: **Cockpit** は、Linux 管理者がオペレーティングシステムから直接サーバーを管理できる軽量でブラウザベースのインターフェイスです。OS 内で動作し、Debian、Fedora、および RHEL など主要なディストリビューションに対応しており、コンテナの起動、ストレージやネットワークの設定、ログの確認、ブラウザを離れずにターミナルとグラフィカルコントロール間で切替えなどが可能です。 ユーザーは Cockpit からでも従来のシェルからでもサービスをシームレスに開始・停止でき、端末で発生したエラーは自動的に Cockpit のジャーナルインターフェイスに表示されます。 プロジェクトはリモート管理もサポートしており、ユーザーは SSH 経由で Cockpit がインストールされた他のマシンを追加・管理できるため、ホスト切替が簡単です。コミュニティサポートは Matrix チャネル(#cockpit:fedoraproject.org)とメールリストで提供されます。ドキュメントにはツールの使い方だけでなくコードベースへの貢献方法も網羅しており、ガイディングプリンシプル、リリースノート、およびプライバシーポリシーが含まれています。 複数の Linux ディストリビューションにわたる統一で使いやすい GUI を提供することで、Cockpit はサーバー管理を効率化し、ドキュメントと活発なコミュニケーションチャネルを通じて継続的な開発者貢献を促進することを目指しています。

2026/03/19 22:05

**Astral が OpenAI に参入**

## Japanese Translation: **(欠落していた詳細を補完)** ### 要約 Astral は、オープンソースの Python ツールを存続させつつ OpenAI の Codex チームに参加することに合意し、そのツールチェーンをモダンな Python 開発の中心に位置付けました。この取引は Astral の創業者が発表し、Python エコシステムの生産性を少なくとも 1 % 向上させる高レバレッジ戦略を強調しています。Ruff(高速リンター)、uv(依存関係解決ツール)、ty といった人気ツールへの継続的なサポートが含まれ、これらを Codex の AI コーディングアシスタントに統合する計画です。Astral のツールチェーンはゼロから数億件の月間ダウンロードへと成長し、Accel が主導した Casey Aylward 氏によるシード資金調達と Andreessen Horowitz が牽引した Jennifer Li 氏によるシリーズ B 資金調達で支えられています。創業者は Astral チームのユーザー重視の製品品質に感謝し、今後も高い基準を維持するとともに、ユーザーの信頼への感謝を表明しました。買収後、Astral はオープンソース提供物の開発を継続し、それらを Codex と統合し、ソフトウェアエンジニアリングにおける影響力を拡大します。これにより、開発者・企業・広範なエコシステムは、生産性を加速させる AI 強化型の堅牢な Python ユーティリティ―基盤となるツールセット―を享受できます。

2026/03/20 2:16

Google、未認証Androidアプリをサイドロードするための新しい24時間プロセスを発表

## Japanese Translation: Googleは2025年後半にAndroid向けの開発者認証プログラムを開始し、開発者が認証されていない場合はサイドロードされたアプリをブロックすることでマルウェアリスクを低減することを目指します。開発者は本人確認書類を提出し、アプリ署名キーをアップロードし、25ドルの手数料を支払う必要があります。 ユーザーは「未認証パッケージを許可」オプションを有効にして認証を回避できます。設定方法は、ビルド番号を7回タップして開発者向けオプションを解除し、スイッチを切り替えてPIN/パスワードで確認し、デバイスを再起動します。その後24時間待ち、次に「一時的に許可」または「無期限に許可」を選択します。24時間の遅延は、高度なソーシャルエンジニアリング攻撃を抑止するためです。 Googleは非Playソースからマルウェアに遭遇する確率が約50倍高いと引用し、このプログラムでそのリスクを低減すると主張しています。検証機能はすでにAndroid 16.1(2025年後半にリリース)に組み込まれており、全てのサポート対象デバイスで利用可能です。実施開始はブラジル、シンガポール、インドネシア、タイで2025年9月から行われ、2026年には世界中へ展開されます。 このプログラムは手数料などのハードルを追加するため、制裁対象国の開発者にとって不利になる可能性がありますが、Googleはその方針がそのような開発者を排除することを意図していないとし、検証済み開発者リストを非永続化に保ち法的課題を回避すると述べています。プライバシー擁護派は検証済み開発者のデータベースについて懸念を示し続けています。

**NanoGPT スロールン:10倍のデータ効率と無限計算** | そっか~ニュース