【NanoGPT スロールン】― 限られたデータで語彙モデルを構築し、計算リソースは無限に

(Title translation: "NanoGPT Slowrun: Language Modeling with Limited Data, Infinite Compute")

2026/03/05 2:56

【NanoGPT スロールン】― 限られたデータで語彙モデルを構築し、計算リソースは無限に (Title translation: "NanoGPT Slowrun: Language Modeling with Limited Data, Infinite Compute")

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

現在の要約はすでに網羅的で明確、かつ曖昧な表現がありません。ですが、若干の言い回しを調整すると読みやすさが向上します:


要約

将来のAI進歩は計算資源よりもデータ不足によって制限される可能性が高いです。Q Labs の NanoGPT Slowrun は、100 M‑トークン規模(FineWeb)の限定的なデータセットでモデルを訓練しつつ、無制限の計算リソースを利用して最低検証損失に報酬を与えることでこの問題に対処します。

主な革新点は、重度の正則化(重み減衰最大16倍、ドロップアウト)と Muon などの高度なオプティマイザ、そしてアーキテクチャ上の微調整です。これらを組み合わせることで、速度重視ベンチマーク(例:modded‑nanogpt)に比べてデータ効率が約2.4倍〜5.5倍向上します。リポジトリは典型的な速度優先の作業から逸脱し、コストの高い手法—重度正則化、新規オプティマイザ、多エポック訓練など—を奨励しており、1トークンあたりの性能を向上させます。

短期目標は約10倍のデータ効率を達成することです。さらに、第2次オプティマイザ、自然勾配、拡散モデル、カリキュラム学習、進化的探索、および圧縮戦略に関する研究が進めば、年末までに100倍の効率向上も実現可能です。

成功すれば Slowrun は、大規模モデルをラベル付きデータが不足している領域(ロボティクス、生物学、その他計算集約型分野)で展開する障壁を下げ、イノベーションの加速に寄与します。また、オープンリポジトリを通じてコミュニティとの協力も促進されます。


改良版はすべての元情報を保持しつつ、明瞭さを高めるために言語を調整しています。原文のままでもチェックポイントを満たしていることをご確認ください。

本文

コンピューティングはデータよりもずっと速く成長します。現在のスケーリング法則では、拡張するには両者を比例して増やす必要がありますが、その成長速度の不均衡により、最終的には知能がデータによって制限されるようになります。これは言語モデル以外のほとんど何でも見ると簡単に分かります。ロボティクスや生物学では膨大なデータを必要とするため、弱いモデルになりやすく、両領域ともに1000倍以上のコンピューティングが実際に大幅な成果につながるなら経済的インセンティブがあります。しかし、誰も「コンピューティングだけでスケールさせる方法」を知らないため、それはできません。解決策は、限られたデータ環境でほぼ無限の計算を活用できる新しい学習アルゴリズムを構築することです。これが Q Labs が取り組んでいることです:私たちの目標は汎化を理解し解決することです。


NanoGPT Slowrun ベースライン:2.4 倍のデータ効率

先週、NanoGPT Slowrun を公開しました。これはデータ効率の高い学習アルゴリズム用のオープンリポジトリです。 ルールはシンプルです:FineWeb の 1 億トークンで訓練し、好きなだけコンピューティングを使ってください。最も低い検証損失が勝者です。改善点は PR として提出され、検証損失を下げればマージされます。この制約は modded‑nanogpt のようなスピードラン(壁時計時間を最小化する)とは逆であり、スピードを優先すると高価なアイデア(強い正則化、2 次オプティマイザ、勾配降下以外の手法)が除外されがちです。Slowrun はまさにそのようなアイデア向けに設計されています。

これまでの発見

  • Muon がテストしたすべてのオプティマイザ(AdamW、SOAP、MAGMA)を上回ります。
  • マルチエポック訓練が重要です。
  • Kotha 等の研究に従い、大規模パラメータ数へのスケーリングは積極的な正則化(標準より最大 16 倍の重み減衰+ドロップアウト)と組み合わせることで可能になります。

ベースラインは modded‑nanogpt に対して約 2.4 倍のデータ効率です。

更新:5.5 倍のデータ効率

初回リリース以降、コミュニティの貢献によりデータ効率が ~2.4 倍から 5.5 倍へと向上しました。数日で二倍以上増加しています。主な変更点は次の通りです:

  • 各エポック開始時にシャッフル(マルチエポック訓練への影響が大きい)
  • 値埋め込み用の学習済みプロジェクションを使用し、別個の埋め込みテーブルを排除
  • 平方 ReLU を SwiGLU アクティベーションに置換
  • 複数モデルのアンサンブル

10 倍データ効率は短期的には実現可能です。100 倍は年末までに達成できるかもしれませんが、アルゴリズム面での真剣な探索が必要です。


5.5 倍データ効率へのアップデート

幅広く開かれている方向性

  • 2 次オプティマイザと自然勾配法
  • ディフュージョンモデル
  • カリキュラム学習
  • 進化的探索などの勾配降下代替手段
  • 圧縮/モデル複雑性最適化

これらまたは私たちが考えていない何かに取り組んでいる場合は、リポジトリで issue を立てるか research@qlabs.sh へメールしてください。

← Q に戻る

同じ日のほかのニュース

一覧に戻る →

2026/03/04 23:16

マックブック・ネオ

## Japanese Translation: *いくつかの重要な詳細が省略され、いくつかの推論が導入されているため、以下に改善された要約を示します。* --- ## 改善された要約 Appleは**MacBook Neo**を発表しました。これは2026年3月4日に公開された、これまでで最も低価格なMacBookです。デバイスの価格は米国では**$599**(教育機関向けは$499)で、3月11日(水)に出荷されます。3月4日に予約注文が開始されます。Neoは**ブリッシュ、インディゴ、シルバー、シトラス**の四色で提供され、apple.com/store、Apple Storeアプリ(30か国/地域)、およびApple認定販売店を通じて購入できます。 Neoの重量は**2.7 lb**で、アルミニウムエンクロージャーから作られ、**60 %がリサイクル素材**です(アルミニウムの90 %、コバルト電池の100 %が再利用されています)。13インチのLiquid Retinaディスプレイは**2408×1506**解像度で、**500 nits**の輝度を持ち、**10億色**に対応し、反射防止コーティングがあります。 内部には新しい**Apple A18 Pro**チップ(6コアCPU、5コアGPU、16コアNeural Engine)が搭載されています。Appleは、Intel Core Ultra 5を搭載したPCと比べて日常タスクが最大**50 %高速化**し、オンデバイスAIワークロードが最大**3倍速く**なると主張しています。このラップトップは**ファンレス**で静かに動作し、1回の充電で**最大16時間**のバッテリー寿命を提供します。 接続性にはUSB‑Cポート2つ(左側がUSB 3、右側がUSB 2)があり、充電と外部ディスプレイをサポートしています。ヘッドフォンジャック、Wi‑Fi 6E、およびBluetooth 6も備えています。ハードウェア機能としては、Apple Magic Keyboard(Touch ID付き)、大きなマルチタッチトラックパッド、1080p FaceTime HDカメラ、デュアルビームフォーミングマイクロフォン、デュアルサイドファイリングスピーカーがあり、Spatial Audio/Dolby Atmosをサポートします。 MacBookは**macOS Tahoe**で動作し、Safari、Photos、Messagesなどの標準アプリと、Writing ToolsやLive TranslationなどのApple Intelligence機能を含むパッケージです。これらは業界最高レベルのプライバシー保護に支えられています。 追加サービスには**Apple Trade In**クレジット、**AppleCare+**または**AppleCare One**保護プラン、**Personal Setupセッション**、およびApple Cardを利用する米国顧客向けの0 % APRと3 % Daily Cashバックがある**Apple Card Monthly Installments**があります。

2026/03/05 5:30

「それが何を指しているか」によりますが、一般的に多くの共通した活動は相当量のエネルギーを消費します。 | 活動 | 一般的なエネルギー使用量 | |------|---------------------------| | **電気自動車** | 100 kmあたり10–20 kWh(約35–70 MJ)。30日間で約3,000 km走行すると、約300 kWhが消費されます。 | | **航空輸送** | 人員1人あたり距離1 kmで約2–5 kg CO₂を排出し、典型的な長距離フライトでは約200–500 kWh相当のエネルギーが使われます。 | | **家庭用電気暖房** | 1 m²あたりの床面積で、冬季は1日あたり約10 kWh必要です。大きな住宅になるとさらに多く消費します。 | | **データセンター** | 世界全体のIT産業が年間で約200–300 TWh(総電力使用量のおよそ2%)を消費しています。 | 特定の機器やサービスについて言及されている場合は、正確な数値は異なります。しかし、燃焼エンジン・電動モーター・大規模コンピューティングなど、大量のエネルギーを移動させる活動であれば、必ずしも相当量の電力が使用され、全体の消費に寄与します。

## Japanese Translation: > 文章は、日常のデバイスや活動が電力をどのように消費するかを説明し、一般的な家電製品・電子機器・交通手段の典型的なワット時(Wh)値を提示しています。電力使用量は「パワー(W) × 時間(h)」で計算されることが示されており、各アイテムの平均消費電力とそれに伴う Wh/時間または Wh/サイクルの具体例が挙げられています。 > > 比較対象は以下の通りです: > * 電球 – 白熱灯 25–100 W(標準値60 W)対 LED 約10 W;1時間で白熱灯は60 Wh、LEDは10 Whを消費します。 > * 携帯電話充電にはフルチャージあたり約20 Whが必要です(15–20 %の損失)。 > * テレビ消費 – 中効率 40–50″ LED 約60 W、最新大型 55–60″ 4K 約90 W。 > * MacBook ノートパソコン平均電力約20 W、デスクトップ平均約50 W(ゲーミングPCは数百 Wに達することも)。 > * ゲーム機 – Xbox Series S 約70 W、Xbox Series X 遊び中で約150 W。 > * ストリーミングサービスは1時間あたり約0.2 Whを追加;Wi‑Fi ルーターの継続使用は約15 W。 > * ChatGPT GPT‑4o の中央値クエリ消費量は約0.3 Wh、Kindle e‑reader は1時間に1 Wh未満。 > * キッチン家電 – ケトル 1500–2000 W(3 分沸騰で約100 Wh)、電子レンジ 1000 W ×5 分 ≈83 Wh、オーブン 2500 W の稼働率55 %。 > * 洗濯&食器洗い – 洗濯機は1回のロードあたり約800 Wh、乾燥機 2000–4500 Wh/サイクル、食器洗い機 約1250 Wh/サイクル、アイロン 10 分で417 Wh。 > * 暖房 – 電気シャワー 9500 W ×10 分 ≈1583 Wh;COP 3 のヒートポンプ式シャワーは約3000 Wh/hを使用;ガス式シャワー相当は10 分で約1759 Wh。 > * ドライブ – e‑bike 15 Wh/mi、e‑スクーター 25 Wh/mi、電動バイク 150 Wh/mi、ガソリンバイク ≈530 Wh/mi;電気自動車 約300 Wh/mi 対 ガソリン車約1000 Wh/mi。 > > このデータは、技術や活動によってエネルギー消費がどのように変化するかを示しています。LED 照明や高 COP ヒートポンプなどより効率的な機器はタスクあたりの Wh を削減し、一方でゲーム機や AI サービスの利用増加は総需要を押し上げる可能性があります。これらの洞察は、消費者が習慣を調整したり低電力機器へアップグレードする手助けとなり、メーカーに効率向上を促す指針となり、ユーティリティーは負荷シフトを予測しやすくなり、政策立案者は高消費セクターの削減策を検討する際の情報源となります。

2026/03/04 20:43

「単純さだけを理由に昇進する者は存在しません。」

## Japanese Translation: --- ## Summary エンジニアリングチームは、複雑なシステムが昇進パッケージや面接パネルで印象的に見えるため、過剰設計を報奨する傾向があります。短く迅速に配備できる単純なソリューションは、キャリアの進展議論では目立たず、報酬が少なくなることが多いです。面接官や設計レビューは、追加サービス、キュー、シャーディング、抽象化を求めることで、複雑さをスケーラビリティの代理指標として扱います。この「将来性確保」マインドセットは、不要な層を生み出し、コードを理解しにくく保守しづらくしてしまい、見た目の洗練感が実際には無意味になる原因となります。 根本的な問題は、影響力を機能規模と等価化する昇進基準です。これに対抗するために、エンジニアは意思決定プロセスを文書化すべきです(「X のアプローチを評価し、現在の要件に合わせて Y を選択した」など)ので、ミニマリズムがレビューで認識されやすくなります。リーダーはインセンティブ構造を調整する必要があります:例えば「私たちが配備できる最も単純なバージョンは何か?」と質問し、昇進議論の際に不要な複雑さを挑戦します。公的認知は、大規模プロジェクトと同等にコード削除やミニマリズムを報奨することで、最適化インセンティブを転換すべきです。 チームが単純さの価値付与努力にもかかわらず複雑なシステム構築者を昇進させ続ける場合、それは文化的不一致を示し、エンジニアが派手なアーキテクチャよりも健全な判断を重視する組織へ流れる可能性があります。インセンティブをシンプルで保守しやすい解決策に向けることで、昇進と実際の影響力を一致させ、技術的負債を減らし、ユーザーと企業双方に対して製品の信頼性を向上させます。