
2025/12/07 23:47
Nested Learning: A new ML paradigm for continual learning
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
要約:
Behrouz、Razaviyayn、Zhong、および Mirrokni による NeurIPS 2025 で発表された Nested Learning は、単一の機械学習モデルを相互に結合した最適化問題の階層として捉えることを提案しています。アーキテクチャからオプティマイザまで各レベルは独自のコンテキストフローと更新率を持ち、従来のディープラーニングよりも深い計算深度を実現します。著者らはバックプロパゲーションとトランスフォーマー注意機構を連想記憶モジュールとして再解釈し、オプティマイザの目的(例:ドット積類似性を L2 回帰損失に置き換える)を再定義することで、「ディープオプティマイザ」を導出し、不完全なデータへの頑健性を高めています。
主要な革新は Continuum Memory System(CMS)であり、これはトランスフォーマーのメモリを更新頻度のスペクトルにわたって拡張し、継続的学習における短期・長期記憶処理を豊かにします。Hope アーキテクチャは Titans フレームワークを基盤とし、制限なしのコンテキスト内学習レベルと CMS ブロックを追加してコンテキストウィンドウを拡大しています。実験結果では、Hope が言語モデリング、長文推論、継続的学習、知識統合、および Needle‑In‑Haystack(NIAH)下流タスクにおいて、最新のリカレントモデルや標準トランスフォーマーよりも低いパープレキシティと高い精度を達成しています。
著者らは、Nested Learning がアーキテクチャ設計と最適化を統一する原理的な手段を提供し、現在の LLM の壊滅的忘却と人間脳の神経可塑性とのギャップを橋渡しできる可能性があると主張しています。
本文
過去10年間、機械学習(ML)は驚異的な進歩を遂げました。
主に強力なニューラルネットワーク構造とそれらを訓練するアルゴリズムが推進役でした。しかし、大規模言語モデル(LLM)の成功にもかかわらず、特に継続学習―新しい知識やスキルを時間の経過とともに獲得しつつ既存のものを忘れない能力―については、根本的な課題が残っています。
人間脳と継続学習
継続学習・自己改善に関して、人間脳は金字塔です。神経可塑性(neuroplasticity)という新しい経験・記憶・学習に応じて構造を変える驚異的な能力で適応します。この機能が無ければ、個人は即時の文脈(例:前向き健忘)に限定されます。現在のLLMでも同様の制限が見られ、知識は入力ウィンドウ内の即時文脈か、事前学習で得た静的情報に閉じ込められています。
単純なアプローチ――新しいデータでパラメータを継続的に更新する――はしばしば**壊滅的忘却(catastrophic forgetting, CF)を招きます。新しいタスクの学習が古いタスクの性能を犠牲にします。研究者は従来、アーキテクチャの微調整やより良い最適化規則でCFと戦ってきましたが、長らくモデルの構造(ネットワーク設計)と最適化アルゴリズム(訓練ルール)**を別々に扱うことで、本当に統合的かつ効率的な学習システムを実現できていませんでした。
私たちの論文 ― 「Nested Learning: The Illusion of Deep Learning Architectures」
NeurIPS 2025 で発表
この論文では Nested Learning を提案します。Nested Learning は、単一のMLモデルを「ひとつの連続したプロセス」ではなく、相互に結びついた多階層学習問題のシステムとして扱います。モデルの構造と訓練規則は本質的に同じ概念であり、ただ最適化レベルが異なるだけです。それぞれ独自の情報フロー(context flow)と更新速度を持ちます。この内在する構造を認識すれば、Nested Learning は「見えなかった」次元を提供し、より深い計算的深さを備えた学習コンポーネントを設計できるようになります。結果として壊滅的忘却の問題も解決へと近づきます。
私たちは Hope と呼ばれる自己修正アーキテクチャで Nested Learning を検証し、言語モデリングにおいて優れた性能を示すだけでなく、長文コンテキスト管理でも既存最先端モデルよりも高いパフォーマンスを達成しました。
Nested Learning パラダイム
Nested Learning は、複雑なMLモデルが実際には「互いに結びつき、並行して動作する一連の最適化問題」であることを示します。各内部問題は独自のコンテキストフロー(学習対象情報)を持ちます。
この視点から、既存のディープラーニング手法は本質的に内部コンテキストフローを圧縮していると解釈できます。また、Nested Learning は「深い計算的深さ」を備えた学習コンポーネント設計という新しい次元を提供します。
例:連想記憶(Associative Memory)
- 連想記憶とは、あるものから別のものを思い出す能力(例:顔を見ると名前が浮かぶ)です。
- 学習プロセスそのもの、特に逆伝搬は連想記憶としてモデル化できます。モデルはデータポイントを局所誤差(そのデータポイントがどれだけ「驚いた」か)へマッピングします。
- 以前の研究(例:Miras)のように、トランスフォーマーの注意機構も連想記憶モジュールとして定式化でき、シーケンス内トークン間のマッピングを学習します。
更新頻度で階層化
各コンポーネントがどれだけ頻繁に重みを更新するか(update‑frequency rate)を定義すると、相互結合された最適化問題を レベル に並べることができます。この順序付けられた集合こそが Nested Learning の核です。
Nested Learning を実装する
Nested Learning の視点は既存アルゴリズム・アーキテクチャの改善に直接応用可能です。
1. 深層オプティマイザ(Deep Optimizers)
- オプティマイザ(例:モーメンタムベース)を連想記憶モジュールとして扱い、連想記憶の原理を適用。
- 多くの標準オプティマイザは単純なドット積類似度に依存し、データサンプル間の関係性を考慮していません。
- オプティマイザの基礎目的を L2 回帰損失などより標準的な指標へ変更することで、モーメンタムなどのコア概念を再定式化し、不完全データに対する耐性を高めます。
2. 継続メモリシステム(Continuum Memory Systems, CMS)
- 標準トランスフォーマーでは、シーケンスモデルが短期記憶(即時文脈)を担い、フィードフォワードネットワークが長期記憶(事前学習知識)を保持します。
- Nested Learning はこれを CMS へ拡張し、メモリを「頻度ごとに更新されるモジュールのスペクトル」として捉えます。
- より豊かで効果的な継続学習用メモリシステムが実現します。
3. Hope: 自己修正アーキテクチャ
- Proof‑of‑concept として Hope を設計しました。これは Titans アーキテクチャの変種で、長期記憶モジュールは「驚き」に基づいてメモリを優先します。
- ただし Titans はパラメータ更新が2レベルしかなく、一次元的なコンテキスト学習に留まります。
- Hope は自己修正型再帰アーキテクチャで無限に拡張可能なコンテキスト学習レベルを持ち、CMS ブロックで大規模文脈ウィンドウへスケールします。
- つまり、自身のメモリを自己参照的に最適化し、無限ループ型学習レベル を実現しています。
実験
- 深層オプティマイザ の有効性と Hope の言語モデル性能を評価。
- 長文推論、継続学習、知識取り込みタスクでのパフォーマンスを検証。
- 詳細結果は論文に掲載済みです。
結果
- Nested Learning と CMS、自己修正 Titans の組み合わせが 低いペルプレキシティ と 高精度 を実現。
- 既存の再帰モデルや標準トランスフォーマーを上回ります。
- Hope は長文 Needle‑In‑Haystack(NIAH)タスクで優れたメモリ管理を示し、CMS が拡張情報列を効率的に扱う有効手段であることを証明しました。
結論
Nested Learning パラダイムはディープラーニング理解の一歩前進です。
- アーキテクチャと最適化を「単一の相互結合された最適化問題集合」として扱うことで、レベルを重ねる新次元 を開きます。
- Hope のようなモデルは、この統一的アプローチがより表現力・性能・効率性を高めることを示しています。
我々は Nested Learning が現在の LLM の忘却傾向と人間脳の卓越した継続学習能力とのギャップを埋める堅実な基盤になると信じています。研究コミュニティがこの新次元を探求し、次世代の自己改善 AI を構築する手助けをしてくれることを期待しています。
謝辞
本研究は Ali Behrouz、Meisam Razaviyayn、Peilin Zhong、Vahab Mirrokni によって行われました。
Praneeth Kacham と Corinna Cortes のレビューと貴重なご提案に感謝します。
また、Yuan Deng と Zeman Li への感謝も述べます。
最後に、Mark Simborg と Kimberly Schwede にこのブログ記事の作成を手伝っていただいたことに深く感謝します。