
2026/03/05 2:56
【NanoGPT スロールン】― 限られたデータで語彙モデルを構築し、計算リソースは無限に (Title translation: "NanoGPT Slowrun: Language Modeling with Limited Data, Infinite Compute")
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
現在の要約はすでに網羅的で明確、かつ曖昧な表現がありません。ですが、若干の言い回しを調整すると読みやすさが向上します:
要約
将来のAI進歩は計算資源よりもデータ不足によって制限される可能性が高いです。Q Labs の NanoGPT Slowrun は、100 M‑トークン規模(FineWeb)の限定的なデータセットでモデルを訓練しつつ、無制限の計算リソースを利用して最低検証損失に報酬を与えることでこの問題に対処します。
主な革新点は、重度の正則化(重み減衰最大16倍、ドロップアウト)と Muon などの高度なオプティマイザ、そしてアーキテクチャ上の微調整です。これらを組み合わせることで、速度重視ベンチマーク(例:modded‑nanogpt)に比べてデータ効率が約2.4倍〜5.5倍向上します。リポジトリは典型的な速度優先の作業から逸脱し、コストの高い手法—重度正則化、新規オプティマイザ、多エポック訓練など—を奨励しており、1トークンあたりの性能を向上させます。
短期目標は約10倍のデータ効率を達成することです。さらに、第2次オプティマイザ、自然勾配、拡散モデル、カリキュラム学習、進化的探索、および圧縮戦略に関する研究が進めば、年末までに100倍の効率向上も実現可能です。
成功すれば Slowrun は、大規模モデルをラベル付きデータが不足している領域(ロボティクス、生物学、その他計算集約型分野)で展開する障壁を下げ、イノベーションの加速に寄与します。また、オープンリポジトリを通じてコミュニティとの協力も促進されます。
改良版はすべての元情報を保持しつつ、明瞭さを高めるために言語を調整しています。原文のままでもチェックポイントを満たしていることをご確認ください。
本文
コンピューティングはデータよりもずっと速く成長します。現在のスケーリング法則では、拡張するには両者を比例して増やす必要がありますが、その成長速度の不均衡により、最終的には知能がデータによって制限されるようになります。これは言語モデル以外のほとんど何でも見ると簡単に分かります。ロボティクスや生物学では膨大なデータを必要とするため、弱いモデルになりやすく、両領域ともに1000倍以上のコンピューティングが実際に大幅な成果につながるなら経済的インセンティブがあります。しかし、誰も「コンピューティングだけでスケールさせる方法」を知らないため、それはできません。解決策は、限られたデータ環境でほぼ無限の計算を活用できる新しい学習アルゴリズムを構築することです。これが Q Labs が取り組んでいることです:私たちの目標は汎化を理解し解決することです。
NanoGPT Slowrun ベースライン:2.4 倍のデータ効率
先週、NanoGPT Slowrun を公開しました。これはデータ効率の高い学習アルゴリズム用のオープンリポジトリです。 ルールはシンプルです:FineWeb の 1 億トークンで訓練し、好きなだけコンピューティングを使ってください。最も低い検証損失が勝者です。改善点は PR として提出され、検証損失を下げればマージされます。この制約は modded‑nanogpt のようなスピードラン(壁時計時間を最小化する)とは逆であり、スピードを優先すると高価なアイデア(強い正則化、2 次オプティマイザ、勾配降下以外の手法)が除外されがちです。Slowrun はまさにそのようなアイデア向けに設計されています。
これまでの発見
- Muon がテストしたすべてのオプティマイザ(AdamW、SOAP、MAGMA)を上回ります。
- マルチエポック訓練が重要です。
- Kotha 等の研究に従い、大規模パラメータ数へのスケーリングは積極的な正則化(標準より最大 16 倍の重み減衰+ドロップアウト)と組み合わせることで可能になります。
ベースラインは modded‑nanogpt に対して約 2.4 倍のデータ効率です。
更新:5.5 倍のデータ効率
初回リリース以降、コミュニティの貢献によりデータ効率が ~2.4 倍から 5.5 倍へと向上しました。数日で二倍以上増加しています。主な変更点は次の通りです:
- 各エポック開始時にシャッフル(マルチエポック訓練への影響が大きい)
- 値埋め込み用の学習済みプロジェクションを使用し、別個の埋め込みテーブルを排除
- 平方 ReLU を SwiGLU アクティベーションに置換
- 複数モデルのアンサンブル
10 倍データ効率は短期的には実現可能です。100 倍は年末までに達成できるかもしれませんが、アルゴリズム面での真剣な探索が必要です。
5.5 倍データ効率へのアップデート
幅広く開かれている方向性
- 2 次オプティマイザと自然勾配法
- ディフュージョンモデル
- カリキュラム学習
- 進化的探索などの勾配降下代替手段
- 圧縮/モデル複雑性最適化
これらまたは私たちが考えていない何かに取り組んでいる場合は、リポジトリで issue を立てるか research@qlabs.sh へメールしてください。
← Q に戻る