2026/05/06 4:38

深層学習理論

RSS: https://news.ycombinator.com/rss

要約▶

Japanese Translation:

スタンフォードディファージョン・グループは、古典的な統計学に基づく失敗予測にもかかわらず深層学習が成功する理由を解明する理論を提案しました。ラヴォアジエ以前の化学に例えられたこの研究は、ボルヘスの『メモリアスなフネス』で指摘されたパラドックス、すなわち膨大なデータを保持しながら一般化できないという問題に対応しています。本枠組みはパラメータ空間の分析を放棄し、代わりにニューラルネットワークを出力空間における動的システムとして扱い、経験的ニューラルタンジェントカーネル（eNTK）によって支配されると捉えます。これは、benign overfitting（無害な過学習）、double descent（二重下降）、implicit bias（暗黙のバイアス）、grokking（突然の理解現象）という現象を、単一のメカニズム下で統合します：トレーニングは「シグナルチャンネル」（時間積分された eNTK の範囲）とノイズを記憶する「レジervoir」へと分解されます。無害な過学習は、推定時においてもレジervoir 内にノイズが存在するためテスト中にその影響が不可視化されることに起因し、二重下降は容量が推定閾値を跨ぐ際にノイズがチャンネル間を移動することを反映しています。暗黙のバイアスは、勾配フローが高移動度モードを優先し、擬似逆行列効果によって予測を拘束することで生じます。導出された更新規則（$\mu_k^2 > \sigma_k^2/(b-1)$ の際にパラメータ $k$ を調整）は、レジervoir 内の構造的パターンがシグナルチャンネルへと移行する過程で、モデルが一気に一般化原則を把握できるようになり、grokking の発生速度を五倍に加速します。 practitioners は現在、集団リスクのみを用いて最適化が可能となり、別途検証セットを用意する必要がなくなり、様々なモデル容量におけるデプロイ効率を向上させることができます。

本文

エロン・リットマン

ホルヘ・ルイス・ボレスは、馬の事故の後で「あらゆるものを知觉し、記憶する能力」を手に入れたフネスという男について語る物語を書いた。木々のすべての葉。渓流の瞬間ごとのすべての波紋。彼は究極のエミピシスト（経験主義者）である。無限のデータ、無限な回想能力、無限の解像度。しかし彼には思考ができない。なぜならボレスによれば、思考するには忘れることが必要だからだ。フネスは記憶から一日全体を再構築できるが、「横から見た時刻 3:14 の犬」と「正面から見た時刻 3:15 の犬」が同じ名前で呼ばれるべきだと理解できない。

ボレスは、馬の事故の後で「あらゆるものを知觉し、記憶する能力」を手に入れたフネスという男について語る物語を書いた。木々のすべての葉。渓流の瞬間ごとのすべての波紋。彼は究極のエミピシスト（経験主義者）である。無限のデータ、無限な回想能力、無限の解像度。しかし彼には思考ができない。なぜならボレスによれば、思考するには忘れることが必要だからだ。フネスは記憶から一日全体を再構築できるが、「横から見た時刻 3:14 の犬」と「正面から見た時刻 3:15 の犬」が同じ名前で呼ばれるべきだと理解できない。私は[Funes] は思考にあまり長けていなかったと推測する。思考とは、差異を無視し（あるいは忘却して）、一般化し、抽象化するものである。イレネオ・フネスという溢れんばかりの世界には単に particulars（個別事象）しかなかった。

ホルヘ・ルイス・ボレス『記憶の力を持つフネス』、『Ficciones』（1944 年）。

物語の後半、ボレスはロークを登場させます。十七世紀に、個々の事物――石、鳥、枝それぞれが独自の名称を持つ不可能な言語を想定したロークです。フネスも同様の言語を投影しましたが、それ自身が「あまりに一般化されていて、曖昧すぎる」と考え、見捨てることにしました。深層学習の理論は、ロークの言語を構築しており、フネスのものに至る段階にあります。より多くのパラメータ、より多くのデータ、より深いネットワーク、膨大な計算資源。「uniform convergence（一様収束）」、「最適化」、「NTK（ニューラル・タンジェント・カーネル）」、「PAC-Bayes（確定的・統計的結合学習理論）」、「安定性」、「平均場」――あらゆる研究者が同じ問題に取り組んでいますが、互いに異なる言語を話し、互いの仮定の下では空虚な境界条件を示すことを証明しています。

現代の深層学習における錬金術は、ラヴォアジエ以前にあった化学のようなものです：機能する実践でありながら、理論的基盤に欠けている分野です。誰もがこれは問題であると認めていますが、多くの人は解決可能であるとは考えていません。スタンフォード大学にあるディフュージョン・グループでは、長年にわたり「なぜ深層学習が機能するのか」という問いに答えることを試みてきました。同僚の多くはこの試みを未熟で、キークス的（空想家の企て）だと考えていましたが、我々は答えを持っていると考えます。

しかしまず、なぜこの問いが困難なのかを示すために、古典的理論が予測するところから始めましょう。古典的統計学習理論は、「バイアス・分散のトレードオフ」を仮定しています：モデルが単純すぎるとデータに過不足なく適合（underfit）し、表現力が強すぎると過剰適合（overfit）します。深層ニューラルネットワークは極めて表現力が高く、過パラメータ化されています。つまり、パラメータ数よりもデータの点数が圧倒的に多く、データのあるあらゆるラベリングを「shatter（破壊＝完全に再現する）」することができます。トレーニング中は、ネットワークはトレーニングデータに完全に適合し、すべてのノイズも無差別に学習してゼロ誤差を実現します。したがって、テスト誤差は極めて悪化するはずです。

ジャン・ジャン・ザンなど他、「Understanding Deep Learning (Still) Requires Rethinking Generalization」、『Communications of the ACM』64 巻 3 号（2021 年）。オリジナルの 2017 年版では、標準的なアーキテクチャがランダムなラベルを記憶できることを示し、古典的な「容量に基づく汎化の説明」は不十分であることを証明した。

しかし、テスト誤差……は実は極めて低いのです。

これを「benign overfitting（善意的過剰適合）」と呼びます。これは統計学習理論における最も基本的な直感に反します。

バートレットら、「Benign Overfitting in Linear Regression」、『PNAS』117 巻 48 号（2020 年）。

トレーニングデータを完全にフィッティングする以上、ノイズは破壊され、何らかの形で無害化されたはずだ。ニューラルネットワークを用いてバイアス・分散のトレードオフを可視化しようとすると、期待される U 字型の曲線ではなく、「double descent（二重降下）」が見られます。モデルの複雑さが大きくなるにつれてテスト誤差は上昇しますが、interpolation threshold（挿入閾値）を超えると再び低下します。

ベルキンら、「Reconciling Modern Machine Learning Practice and the Bias-Variance Trade-off」、『PNAS』116 巻 32 号（2019 年）。

ネットワークが「すべてを記憶する能力」を獲得したその瞬間に、それは汎化を開始します。

勾配降下法は、データに適合する無限の解のうち、汎化するもの（通常は低 ℓ_2 ノルム、低核ノルム、近似して低ランク）を選びます。これを「implicit bias（暗黙的バイアス）」と呼びます。

グナーセカーら、「Implicit Regularization in Matrix Factorization」、『NeurIPS』(2017)、ソウドリら、「The Implicit Bias of Gradient Descent on Separable Data」、『JMLR』19 号（2018 年）。

最後に、データ生成分布が非常に構造を持っていて、ネットワークに正しい inductive bias（誘導バイアス）がない場合、ネットワークはトレーニングセットを記憶し、その後数百万ステップ経って突然、汎化する現象です。これを「grokking」と呼びます。

パワーら、「Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets」、『arXiv:2201.02177』(2022 年)。

我々の説明は、プレプリントとしてこちらでご覧いただけます。

リットマン & グオ、「A Theory of Generalization in Deep Learning」、『arXiv:2605.01172』。

これには証明や実験が付き、あらゆるモデル・損失関数・データセットに対して集団リスク（population risk）でトレーニングするためのアルゴリズムも提供します。

理論

標準的なアプローチでは、ニューラルネットワークを仮説クラスの一点として扱い、数十億のパラメータにわたるその複雑性を制限しようと試みます。我々は大胆な Vereinfachung（簡素化）を提案します：パラメータ空間自体を放棄することです。代わりに、出力空間におけるネットワークを動的システムとして分析し、予測がどのように進化するか、誤差がどのように流れ込むかに焦点を当てます。トレーニングでのすべての出力をベクトル (U_S \in \mathbb{R}^{np}) にスタックし、各出力に対する各パラメータの偏微分係数からなるヤコビアン (J_S = D_w U_S) を形成します。すべてを支配する客体は、経験的ニューラル・タンジェント・カーネル（eNTK）です。

ヤコトら、「Neural Tangent Kernel: Convergence and Generalization in Neural Networks」、『NeurIPS』(2018 年)。

$$K_{SS}(w) = J_S(w) J_S(w)^\top$$

これは、トレーニング上の点の対々の間において、一つの勾配ステップが他への予測にどれだけ影響を与えるかを示す行列です。勾配フローの下では、トレーニング出力とその勾配は以下のように進化します。

$$\partial_t u = -K_{SS} g$$ $$\partial_t g = -B K_{SS} g$$

ここで (g = \nabla \Phi_S(u)) は出力勾配、(B = \nabla^2 \Phi_S(u)) は損失関数のヘッセ行列です。テスト出力はクロス・カーネル (K_{QS} = J_Q J_S^\top) を介して並行して進化します。

$$\partial_t U_Q = -K_{QS} g$$

これは、有限幅・深さの制限なく、どのような微分可能アーキテクチャおよび凸損失関数でも成り立ちます。損失自体は以下のように減衰します。

$$\frac{d}{dt}\Phi_S(u(t)) = -g(t)^\top K_{SS}(t) , g(t) = -|J_S^\top g|_2^2$$

損失の減少速度はカーネルによって設定されます。(g) を (K_{SS}) の固有ベクトル (v_i)（固有値 (\lambda_i)）に沿って分解します。二乗誤差の場合、残差 (r = u - y) は (\partial_t r = -M(t)r) に従い、ここで (M = K_{SS}/n) です。したがって (v_i) 方向の成分は (e^{-\lambda_i t / n}) で減衰します。固有値が (10\lambda) のモードは、それより 10 倍早く学習されます。有限のトレーニング時間では、ある固有値閾値以下のモードはほとんど動きません。無限の時間を仮定すると、ノイズを含むすべてのモードが適合されます。

特徴学習レジームでは、カーネルは固定されていません。パラメータが移動するにつれて固有ベクトルが回転し、固有値がシフトするため、信号とノイズが再配置されます。以下に、中心化・正規化したグラム行列をプロットし、初期化に対する固有構造の変化を抽出して、それを陰影付きの歪んだ表面として描画したカーネルの回転例を示します。

トレーニング全体の軌道の累積効果を捉えるため、eNTK の時間積分を取ります。

$$\mathcal{W}S(s,T) = \int_s^T P_g(\tau,s)^\top K{SS}(\tau) P_g(\tau,s) , d\tau$$

ここで (P_g) は勾配 ODE の伝播子です。(\mathcal{W}_S) の方向 (\psi_j) における固有値は、その方向の全トレーニングウィンドウにわたる積分された二乗到達可能性（total integrated squared reachability）を表します。

$$\lambda_j = \int_s^T |J_S(\tau)^\top P_g(\tau,s) \psi_j|_2^2 , d\tau$$

大きな (\lambda_j) を持つ方向は、トレーニングで損失が消滅した場所です。これを信号チャネル (\text{range}(\mathcal{W}_S)) といいます。(\lambda_j = 0) の方向は、トレーニングで何も消滅しなかった場所です。これをリザーバー (\ker(\mathcal{W}_S)) といいます。

次に、テスト転移作用素を定義します。

$$G_Q(T,s) = \int_s^T K_{QS}(\tau) P_g(\tau,s) , d\tau$$

これは初期勾配をテスト変位へ伝播させます：(U_Q(T) - U_Q(s) = -G,g(s))。我々は (G) がリザーバー上で消滅することを示します。(\ker \mathcal{W} \subseteq \ker G) です。つまり、ネットワークがリザーバーに記憶したものは、テスト時間では不可視です。過パラメータ化、深さ、誘導バイアスの役割は、カーネルのスペクトルを与え、信号をチャネルへ、ノイズをリザーバーへと配置することにあります。

分野の再解釈

この理論は、深層学習理論における主要な謎を一つの機構の下で統合します。

善意的過剰適合 は、interpolation（適合閾値）においてノイズがリザーバーに存在していることです。ネットワークはトレーニングセット内のノイズを記憶しますが、そのノイズは (\ker \mathcal{W}_S) 即到してテストで不可視であるため問題ではありません。
- 教育的付記として：はい、過剰パラメータ化されたネットワークにおいてこれは厳密にはゼロ固有値を持つ数学的核空間ではなく、近ゼロ固有値のソフトなリザーバーですが、直観を築くためにはこれを硬い境界として扱うのが最善です。
二重降下 は、モデル容量が適合閾値を横断する際にノイズが信号チャネルとリザーバーの間で移動する現象です。適合閾値では、ノイズが一時に信号チャネルに入りテスト誤差がスパイクします。それ以降、ノイズは再びリザーバーへ吸収されます。
暗黙的バイアス は、(\mathcal{W}_S(t)) のスペクトルスケジュールが最大固有値から順に信号チャネルを埋めていくプロセスです。勾配フローはまず高流動性の簡素なモードを、最後に低流動性のモードを学習します。テスト予測を蓄積されたこの信号チャネルに厳密に制限することで、ネットワークは実現されたパス上でモア＝ペンロースの偽逆行列として振る舞い、静的パラメータ空間ではなく動的特徴空間内で最小ノルム解を実質的に見出します。
Grokking は、トレーニング中にカーネルが変化して信号がリザーバーから信号チャネルへ移行する現象です。ネットワークはまず記憶（高速なノイズ適合モードが早期に飽和）、その後汎化（低速な信号モードがようやく信号チャネルに入る）します。

それと：一般化を説明する同じ作用素は、集団リスクを直接トレーニングするための方法も提供します。ミニバッチ内の各トレーニングポイントを一対のテストセットとして扱い、残りのデータに対して留保し、単一のオプティマイザステップにローカライズすると、作用素表現をパラメータごとのルールへ圧縮できます：パラメータ (k) を更新するのは以下の場合のみ。

$$\mu_k^2 > \frac{\sigma_k^2}{b-1}$$

つまり、バッチからの信号が.leave-one-out.ノイズを超えれば更新し、そうでなければスキップします。これはアダム法の一行の変更ですが、grokking を 5 倍加速させ、PINNs（物理情報埋め込みニューラルネットワーク）の記憶学習を抑制し、DPO（直接最適化）ファインチューニングを向上させ、検証セットを完全に不要にします。

未来が示すもの

数学は、今後多くの興奮する研究領域を示唆しています。最初の示唆は、我々が神経ネットワークをトレーニングする方法には悲劇的に多くの無駄があったということです。現在、勾配降下法は漸近的振る舞いを閉じた形で特徴付けることができる動的システムの点ごとのシミュレーションとして機能します。出力空間では、実現されたパスに沿って局所線形微分方程式によってトレーニングダイナミクスを理解できるため、この厳密な特徴付けが可能になります。進化するカーネルの支配的固有モードが指数関数的に速く平衡化するためです。オプティマイザをこれら解決された方向をゆっくりと通過させさせることは極めて非効率であり、最終的なネットワーク状態に解析的にジャンプするための道筋を示唆しています。

我々の理論は、機械学習の根本的な妥協から完全に離れることを可能にし、ネットワークを集団リスクを直接トレーニングする基盤を提供します。純粋な経験的リスク最小化からの脱却により、ネットワークはトレーニングプロセス中に真の汎化に本質的に到達でき、従来の意味での過適合を排除できます。

最後に、過パラメータ化が主にテストで不可視のリザーバーを大きくすることだけであることを理解することは、モデルアーキテクチャの根本的な再考を招きます。今や、ラベルノイズを最適に隔離するより小さく高効率なモデルを設計することで、無限スケーリングによる汎化利点を達成できるかどうかを探求することができます。

同じ日のほかのニュース

一覧に戻る →

2026/05/07 0:44

Valve が、クリエイティブ・コモンズライセンスの下で、Steam Controller のCAD ファイルを公開しました。

## Japanese Translation: Valve は、Steam コントローラーと Puck の CAD ファイルを正式に公開し、マッダーがスキン、グリップエクステンダー、充電スタンド、スマートフォン用マウントなどの追加機能を作成できるようにしました。このパッケージには、内部シェル（外観の表面トポロジー）のみをカバーする .STP、.STL およびエンジニアリング図面ファイルが含まれており、信号強度とデバイスの機能性を維持するため、特定の内側領域は除外されています。このリリースは、Steam Deck、Valve Index、および元々の Steam コントローラーで確立された Valve のデザインオープン哲学を継承するものです。ファイルは、非営利利用を義務付け、出典の明記を要求し、派生作品をコミュニティに還元することを義務付ける制限付きクリエイティブ・コモンズライセンスの下で配布されています。アクセサリを製造したい商業組織は、代わりに Valve に直接連絡して特定の手続を交渉する必要があります。マッダーは外表面において自由なイノベーションが可能ですが（例：Moonlight を通じて *Forza Horizon 6* などのストリーミングタイトル用にスマートフォン用クリップを設計する場合など）、エンジニアリング図面で示されるように、適正な動作を保証するために被覆を維持すべき領域については制限も明確化されています。全体として、これはコミュニティのイノベーションを育む活発なエコシステムを促進しつつ、コアハードウェア保護を維持し、信号強度や内部操作を損なうことなく協力のための明確な経路を定義するものです。

2026/05/07 8:04

DeepSeek V4 Pro：5 月 31 日までの 75％オフ特別セール開催中

## Japanese Translation: 2026 年 4 月 26 日より、DeepSeek は v4 モデルを大規模にアップデートし、OpenAI または Anthropic API フォーマット（`https://api.deepseek.com` および `https://api.deepseek.com/anthropic`）で利用可能な新しい価格設定および技術機能を導入することを発表しました。課金は 1M トークン（入力 + 出力）あたりで行われ、トークンは文字を認識する最小単位を表します。主要な価格改定は以下の通りです： - **deepseek-v4-flash**: 入力のキャッシュヒットが $0.0028/M、キャッシュミスが $0.14/M、出力が $0.28/M です。 - **deepseek-v4-pro**: `pro` モデルの入力および出力コストは、2026 年 5 月 31 日まで 75% 削減されます（入力キャッシュヒットは元の $0.0173/M 相当から現在 $0.0145/M に、入力キャッシュミスは元の $0.0200/M 相当から現在 $1.74/M に、出力は現在 $0.87/M に）。さらに、2026 年 4 月 26 日 UTC 12:15 から、すべてのモデルの入力キャッシュヒット価格はローンチ価格の 1/10 に引き下げられます。技術仕様： - `flash` および `pro` の両モデルでコンテキスト長は 1M トークンに対応し、最大出力トークン制限は 384K です。 - **deepseek-v4-flash** は、デフォルトの非思考モードと thinking モード（それぞれ廃止された名称 `deepseek-chat` および `deepseek-reasoner` に対応）を両方提供します。**deepseek-v4-pro** は現在、非思考モードのみで稼働しています。 - 機能には JSON 出力、ツール呼び出し、チャットプレフィックス補完（Beta）、FIM 補完（Beta）が含まれます。課金はまず追加された残高から引き落としされ、かつ残高が存在する場合でもその順序に従って引き落とします。これらの変更はコスト削減と開発者向けの柔軟なデプロイオプションの提供を目指しています。

2026/05/07 1:18

職場において生産的な姿を示すこと

## Japanese Translation: 記事は、パークインソンの法則を AI に適用することによって、「出力と能力の乖離」という危険な状態が生じると警告しています。これは、生成ツールが制限のないことで、技能不足な労働者が高品質に見えながら欠陥のある成果物を生み出せることを意味します。初心者が上級レベルの作業を作成したり、訓練を受けていない分野の成果物を生成したりすることができます。特に、エンジニアでない人がソフトウェアを構築したりデータシステムを設計したりといった横断領域のタスクにおいてはそのリスクが高まります。大多数の此类の成果物は外部に提供されず、むしろ長時間の過労と機構的な慣性の下で内部に蓄積されていきます。証拠として挙げられるのは、VP の支援にもかかわらず、根本から間違ったシステムを 2 ヵ月かけて構築した非エンジニアの同僚に関する事例で、これが勢いが現実に優先する様子を示しています。研究もこれらのリスクを確認しており、Cheng ら（Science）は先導的モデルが人間よりも約 50% アグリーブルであると発見しており、Berkeley CMR のメタ解析では AI リテラシーを持つユーザーが自己の性能を過大評価していることを示し、NBER の研究では生成型 AI が新人の生産性を約 3 分の 1 向上させた一方、専門家にはほとんど貢献しておらず、Harvard Business School の研究ではレビューできない分野でコンサルティングの新人が個別の生産性を獲得したことを示しています。論文の長さは約 1 ページから約 12 ページへと延伸し、生成コストがほぼゼロとなった一方で、読取コストは人工的な文脈を上回っています。実際の世界的な影響には、AI の幻覚による政府報告書が発端となり、Deloitte が手数料の一部を返金した事件があり、これは企業が AI の誤用によって空洞化されると、最終的にはクライアントが支払った核心価値を失うことになるという警告を含んでいます。専門家は、これらのツールを判断が求められるタスクに使用することや、速いフィードバックを得られる活動（ブレインストーミング、校正、アイデアの再定式化、パターン検出など）に限定することを推奨しており、ここで人間は判断を提供し、ツールはthroughput を提供するとしています。時間の無駄とクライアントからの返金を起因とする著しい財務損失を避けるため、組織は人工的な文脈と事実に厳密に区別し、重要な意思決定を徹底的に人間の監督下においておくことが緊急に必要です。