
2026/05/06 4:38
深層学習理論
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
スタンフォードディファージョン・グループは、古典的な統計学に基づく失敗予測にもかかわらず深層学習が成功する理由を解明する理論を提案しました。ラヴォアジエ以前の化学に例えられたこの研究は、ボルヘスの『メモリアスなフネス』で指摘されたパラドックス、すなわち膨大なデータを保持しながら一般化できないという問題に対応しています。本枠組みはパラメータ空間の分析を放棄し、代わりにニューラルネットワークを出力空間における動的システムとして扱い、経験的ニューラルタンジェントカーネル(eNTK)によって支配されると捉えます。これは、benign overfitting(無害な過学習)、double descent(二重下降)、implicit bias(暗黙のバイアス)、grokking(突然の理解現象)という現象を、単一のメカニズム下で統合します:トレーニングは「シグナルチャンネル」(時間積分された eNTK の範囲)とノイズを記憶する「レジervoir」へと分解されます。無害な過学習は、推定時においてもレジervoir 内にノイズが存在するためテスト中にその影響が不可視化されることに起因し、二重下降は容量が推定閾値を跨ぐ際にノイズがチャンネル間を移動することを反映しています。暗黙のバイアスは、勾配フローが高移動度モードを優先し、擬似逆行列効果によって予測を拘束することで生じます。導出された更新規則($\mu_k^2 > \sigma_k^2/(b-1)$ の際にパラメータ $k$ を調整)は、レジervoir 内の構造的パターンがシグナルチャンネルへと移行する過程で、モデルが一気に一般化原則を把握できるようになり、grokking の発生速度を五倍に加速します。 practitioners は現在、集団リスクのみを用いて最適化が可能となり、別途検証セットを用意する必要がなくなり、様々なモデル容量におけるデプロイ効率を向上させることができます。
本文
エロン・リットマン
ホルヘ・ルイス・ボレスは、馬の事故の後で「あらゆるものを知觉し、記憶する能力」を手に入れたフネスという男について語る物語を書いた。木々のすべての葉。渓流の瞬間ごとのすべての波紋。彼は究極のエミピシスト(経験主義者)である。無限のデータ、無限な回想能力、無限の解像度。しかし彼には思考ができない。なぜならボレスによれば、思考するには忘れることが必要だからだ。フネスは記憶から一日全体を再構築できるが、「横から見た時刻 3:14 の犬」と「正面から見た時刻 3:15 の犬」が同じ名前で呼ばれるべきだと理解できない。
ボレスは、馬の事故の後で「あらゆるものを知觉し、記憶する能力」を手に入れたフネスという男について語る物語を書いた。木々のすべての葉。渓流の瞬間ごとのすべての波紋。彼は究極のエミピシスト(経験主義者)である。無限のデータ、無限な回想能力、無限の解像度。しかし彼には思考ができない。なぜならボレスによれば、思考するには忘れることが必要だからだ。フネスは記憶から一日全体を再構築できるが、「横から見た時刻 3:14 の犬」と「正面から見た時刻 3:15 の犬」が同じ名前で呼ばれるべきだと理解できない。私は[Funes] は思考にあまり長けていなかったと推測する。思考とは、差異を無視し(あるいは忘却して)、一般化し、抽象化するものである。イレネオ・フネスという溢れんばかりの世界には単に particulars(個別事象)しかなかった。
ホルヘ・ルイス・ボレス『記憶の力を持つフネス』、『Ficciones』(1944 年)。
物語の後半、ボレスはロークを登場させます。十七世紀に、個々の事物――石、鳥、枝それぞれが独自の名称を持つ不可能な言語を想定したロークです。フネスも同様の言語を投影しましたが、それ自身が「あまりに一般化されていて、曖昧すぎる」と考え、見捨てることにしました。深層学習の理論は、ロークの言語を構築しており、フネスのものに至る段階にあります。より多くのパラメータ、より多くのデータ、より深いネットワーク、膨大な計算資源。「uniform convergence(一様収束)」、「最適化」、「NTK(ニューラル・タンジェント・カーネル)」、「PAC-Bayes(確定的・統計的結合学習理論)」、「安定性」、「平均場」――あらゆる研究者が同じ問題に取り組んでいますが、互いに異なる言語を話し、互いの仮定の下では空虚な境界条件を示すことを証明しています。
現代の深層学習における錬金術は、ラヴォアジエ以前にあった化学のようなものです:機能する実践でありながら、理論的基盤に欠けている分野です。誰もがこれは問題であると認めていますが、多くの人は解決可能であるとは考えていません。スタンフォード大学にあるディフュージョン・グループでは、長年にわたり「なぜ深層学習が機能するのか」という問いに答えることを試みてきました。同僚の多くはこの試みを未熟で、キークス的(空想家の企て)だと考えていましたが、我々は答えを持っていると考えます。
しかしまず、なぜこの問いが困難なのかを示すために、古典的理論が予測するところから始めましょう。古典的統計学習理論は、「バイアス・分散のトレードオフ」を仮定しています:モデルが単純すぎるとデータに過不足なく適合(underfit)し、表現力が強すぎると過剰適合(overfit)します。深層ニューラルネットワークは極めて表現力が高く、過パラメータ化されています。つまり、パラメータ数よりもデータの点数が圧倒的に多く、データのあるあらゆるラベリングを「shatter(破壊=完全に再現する)」することができます。トレーニング中は、ネットワークはトレーニングデータに完全に適合し、すべてのノイズも無差別に学習してゼロ誤差を実現します。したがって、テスト誤差は極めて悪化するはずです。
ジャン・ジャン・ザンなど他、「Understanding Deep Learning (Still) Requires Rethinking Generalization」、『Communications of the ACM』64 巻 3 号(2021 年)。オリジナルの 2017 年版では、標準的なアーキテクチャがランダムなラベルを記憶できることを示し、古典的な「容量に基づく汎化の説明」は不十分であることを証明した。
しかし、テスト誤差……は実は極めて低いのです。
これを「benign overfitting(善意的過剰適合)」と呼びます。これは統計学習理論における最も基本的な直感に反します。
バートレットら、「Benign Overfitting in Linear Regression」、『PNAS』117 巻 48 号(2020 年)。
トレーニングデータを完全にフィッティングする以上、ノイズは破壊され、何らかの形で無害化されたはずだ。ニューラルネットワークを用いてバイアス・分散のトレードオフを可視化しようとすると、期待される U 字型の曲線ではなく、「double descent(二重降下)」が見られます。モデルの複雑さが大きくなるにつれてテスト誤差は上昇しますが、interpolation threshold(挿入閾値)を超えると再び低下します。
ベルキンら、「Reconciling Modern Machine Learning Practice and the Bias-Variance Trade-off」、『PNAS』116 巻 32 号(2019 年)。
ネットワークが「すべてを記憶する能力」を獲得したその瞬間に、それは汎化を開始します。
勾配降下法は、データに適合する無限の解のうち、汎化するもの(通常は低 ℓ_2 ノルム、低核ノルム、近似して低ランク)を選びます。これを「implicit bias(暗黙的バイアス)」と呼びます。
グナーセカーら、「Implicit Regularization in Matrix Factorization」、『NeurIPS』(2017)、ソウドリら、「The Implicit Bias of Gradient Descent on Separable Data」、『JMLR』19 号(2018 年)。
最後に、データ生成分布が非常に構造を持っていて、ネットワークに正しい inductive bias(誘導バイアス)がない場合、ネットワークはトレーニングセットを記憶し、その後数百万ステップ経って突然、汎化する現象です。これを「grokking」と呼びます。
パワーら、「Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets」、『arXiv:2201.02177』(2022 年)。
我々の説明は、プレプリントとしてこちらでご覧いただけます。
リットマン & グオ、「A Theory of Generalization in Deep Learning」、『arXiv:2605.01172』。
これには証明や実験が付き、あらゆるモデル・損失関数・データセットに対して集団リスク(population risk)でトレーニングするためのアルゴリズムも提供します。
理論
標準的なアプローチでは、ニューラルネットワークを仮説クラスの一点として扱い、数十億のパラメータにわたるその複雑性を制限しようと試みます。我々は大胆な Vereinfachung(簡素化)を提案します:パラメータ空間自体を放棄することです。代わりに、出力空間におけるネットワークを動的システムとして分析し、予測がどのように進化するか、誤差がどのように流れ込むかに焦点を当てます。トレーニングでのすべての出力をベクトル (U_S \in \mathbb{R}^{np}) にスタックし、各出力に対する各パラメータの偏微分係数からなるヤコビアン (J_S = D_w U_S) を形成します。すべてを支配する客体は、経験的ニューラル・タンジェント・カーネル(eNTK)です。
ヤコトら、「Neural Tangent Kernel: Convergence and Generalization in Neural Networks」、『NeurIPS』(2018 年)。
$$K_{SS}(w) = J_S(w) J_S(w)^\top$$
これは、トレーニング上の点の対々の間において、一つの勾配ステップが他への予測にどれだけ影響を与えるかを示す行列です。勾配フローの下では、トレーニング出力とその勾配は以下のように進化します。
$$\partial_t u = -K_{SS} g$$ $$\partial_t g = -B K_{SS} g$$
ここで (g = \nabla \Phi_S(u)) は出力勾配、(B = \nabla^2 \Phi_S(u)) は損失関数のヘッセ行列です。テスト出力はクロス・カーネル (K_{QS} = J_Q J_S^\top) を介して並行して進化します。
$$\partial_t U_Q = -K_{QS} g$$
これは、有限幅・深さの制限なく、どのような微分可能アーキテクチャおよび凸損失関数でも成り立ちます。損失自体は以下のように減衰します。
$$\frac{d}{dt}\Phi_S(u(t)) = -g(t)^\top K_{SS}(t) , g(t) = -|J_S^\top g|_2^2$$
損失の減少速度はカーネルによって設定されます。(g) を (K_{SS}) の固有ベクトル (v_i)(固有値 (\lambda_i))に沿って分解します。二乗誤差の場合、残差 (r = u - y) は (\partial_t r = -M(t)r) に従い、ここで (M = K_{SS}/n) です。したがって (v_i) 方向の成分は (e^{-\lambda_i t / n}) で減衰します。固有値が (10\lambda) のモードは、それより 10 倍早く学習されます。有限のトレーニング時間では、ある固有値閾値以下のモードはほとんど動きません。無限の時間を仮定すると、ノイズを含むすべてのモードが適合されます。
特徴学習レジームでは、カーネルは固定されていません。パラメータが移動するにつれて固有ベクトルが回転し、固有値がシフトするため、信号とノイズが再配置されます。以下に、中心化・正規化したグラム行列をプロットし、初期化に対する固有構造の変化を抽出して、それを陰影付きの歪んだ表面として描画したカーネルの回転例を示します。
トレーニング全体の軌道の累積効果を捉えるため、eNTK の時間積分を取ります。
$$\mathcal{W}S(s,T) = \int_s^T P_g(\tau,s)^\top K{SS}(\tau) P_g(\tau,s) , d\tau$$
ここで (P_g) は勾配 ODE の伝播子です。(\mathcal{W}_S) の方向 (\psi_j) における固有値は、その方向の全トレーニングウィンドウにわたる積分された二乗到達可能性(total integrated squared reachability)を表します。
$$\lambda_j = \int_s^T |J_S(\tau)^\top P_g(\tau,s) \psi_j|_2^2 , d\tau$$
大きな (\lambda_j) を持つ方向は、トレーニングで損失が消滅した場所です。これを信号チャネル (\text{range}(\mathcal{W}_S)) といいます。(\lambda_j = 0) の方向は、トレーニングで何も消滅しなかった場所です。これをリザーバー (\ker(\mathcal{W}_S)) といいます。
次に、テスト転移作用素を定義します。
$$G_Q(T,s) = \int_s^T K_{QS}(\tau) P_g(\tau,s) , d\tau$$
これは初期勾配をテスト変位へ伝播させます:(U_Q(T) - U_Q(s) = -G,g(s))。我々は (G) がリザーバー上で消滅することを示します。(\ker \mathcal{W} \subseteq \ker G) です。つまり、ネットワークがリザーバーに記憶したものは、テスト時間では不可視です。過パラメータ化、深さ、誘導バイアスの役割は、カーネルのスペクトルを与え、信号をチャネルへ、ノイズをリザーバーへと配置することにあります。
分野の再解釈
この理論は、深層学習理論における主要な謎を一つの機構の下で統合します。
- 善意的過剰適合 は、interpolation(適合閾値)においてノイズがリザーバーに存在していることです。ネットワークはトレーニングセット内のノイズを記憶しますが、そのノイズは (\ker \mathcal{W}_S) 即到してテストで不可視であるため問題ではありません。
- 教育的付記として:はい、過剰パラメータ化されたネットワークにおいてこれは厳密にはゼロ固有値を持つ数学的核空間ではなく、近ゼロ固有値のソフトなリザーバーですが、直観を築くためにはこれを硬い境界として扱うのが最善です。
- 二重降下 は、モデル容量が適合閾値を横断する際にノイズが信号チャネルとリザーバーの間で移動する現象です。適合閾値では、ノイズが一時に信号チャネルに入りテスト誤差がスパイクします。それ以降、ノイズは再びリザーバーへ吸収されます。
- 暗黙的バイアス は、(\mathcal{W}_S(t)) のスペクトルスケジュールが最大固有値から順に信号チャネルを埋めていくプロセスです。勾配フローはまず高流動性の簡素なモードを、最後に低流動性のモードを学習します。テスト予測を蓄積されたこの信号チャネルに厳密に制限することで、ネットワークは実現されたパス上でモア=ペンロースの偽逆行列として振る舞い、静的パラメータ空間ではなく動的特徴空間内で最小ノルム解を実質的に見出します。
- Grokking は、トレーニング中にカーネルが変化して信号がリザーバーから信号チャネルへ移行する現象です。ネットワークはまず記憶(高速なノイズ適合モードが早期に飽和)、その後汎化(低速な信号モードがようやく信号チャネルに入る)します。
それと:一般化を説明する同じ作用素は、集団リスクを直接トレーニングするための方法も提供します。ミニバッチ内の各トレーニングポイントを一対のテストセットとして扱い、残りのデータに対して留保し、単一のオプティマイザステップにローカライズすると、作用素表現をパラメータごとのルールへ圧縮できます:パラメータ (k) を更新するのは以下の場合のみ。
$$\mu_k^2 > \frac{\sigma_k^2}{b-1}$$
つまり、バッチからの信号が.leave-one-out.ノイズを超えれば更新し、そうでなければスキップします。これはアダム法の一行の変更ですが、grokking を 5 倍加速させ、PINNs(物理情報埋め込みニューラルネットワーク)の記憶学習を抑制し、DPO(直接最適化)ファインチューニングを向上させ、検証セットを完全に不要にします。
未来が示すもの
数学は、今後多くの興奮する研究領域を示唆しています。最初の示唆は、我々が神経ネットワークをトレーニングする方法には悲劇的に多くの無駄があったということです。現在、勾配降下法は漸近的振る舞いを閉じた形で特徴付けることができる動的システムの点ごとのシミュレーションとして機能します。出力空間では、実現されたパスに沿って局所線形微分方程式によってトレーニングダイナミクスを理解できるため、この厳密な特徴付けが可能になります。進化するカーネルの支配的固有モードが指数関数的に速く平衡化するためです。オプティマイザをこれら解決された方向をゆっくりと通過させさせることは極めて非効率であり、最終的なネットワーク状態に解析的にジャンプするための道筋を示唆しています。
我々の理論は、機械学習の根本的な妥協から完全に離れることを可能にし、ネットワークを集団リスクを直接トレーニングする基盤を提供します。純粋な経験的リスク最小化からの脱却により、ネットワークはトレーニングプロセス中に真の汎化に本質的に到達でき、従来の意味での過適合を排除できます。
最後に、過パラメータ化が主にテストで不可視のリザーバーを大きくすることだけであることを理解することは、モデルアーキテクチャの根本的な再考を招きます。今や、ラベルノイズを最適に隔離するより小さく高効率なモデルを設計することで、無限スケーリングによる汎化利点を達成できるかどうかを探求することができます。