
2026/01/12 22:57
DeepSeek の MHC を再現:残差接続が爆発する際の挙動
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
要約:
本稿では、2016 年以降トランスフォーマーの基盤となってきた標準的な残差接続 (x_{l+1}=x_l + F(x_l)) が、Hyper‑Connections(HC)に拡張されると不安定になる様子を検証しています。HC は学習可能な混合行列 (H^{res})、(H^{pre})、および (H^{post}) を備えた複数の並列ストリームを導入しますが、制約のない HC では信号が指数的に増幅される恐れがあります。27 B パラメータの DeepSeek モデルでは、これにより Amax ピークが約 3000 に達し、訓練が崩壊しました。
著者は、混合行列を双方向確率行列(非負要素で各行と各列の和が 1)に制限することで、演算を加重平均へ変換し、増幅を防ぎつつストリームのルーティング/シャッフリング/ブレンドを許容すると提案しています。この制約は Sinkhorn–Knopp アルゴリズム(行・列正規化を交互に 20 回)を用いて訓練中に強制されます。
約10 M パラメータの TinyShakespeare モデルで実験した結果、制約のない HC は Amax を最大約9.2倍まで達成する一方、制限付き mHC は常に 1.0 に留まります。制約のない HC は検証損失が低い(~0.88 対 ~1.12)ものの、ランダムシード間での分散が大きく(±0.033 対 ±0.012)、層数を増やすと深さ 20 まで性能が向上しますが、それ以降は幅のボトルネックにより回帰および混乱した Amax 行動が観測されます。
本稿では、mHC を標準的な残差接続を保護しつつ表現力を拡張する理論的制約として位置づけています。将来の作業(パート 2)では、A100 GPU 上で 1 B パラメータモデルへスケールし、より高い Amax レジームにおける不安定性と深さ–幅トレードオフをさらに検討します。
(原文の語彙を保持したまま追加情報を加える場合)
「将来の作業(パート 2)は、A100 GPU 上で 1 B パラメータモデルへ mHC をスケールし、高い Amax レジームにおける不安定性と深さ–幅トレードオフをさらに精緻化します。」
これにより元の構造を保ちつつ、すべての重要ポイントが表現されます。
本文
2026年1月11日
あなたが今まで使ったすべてのトランスフォーマーは、2016 年に登場した残差接続設計を共有しています:GPT‑5、Claude、Llama、Gemini。裏で行われていることは同じです。
[ x_{l+1}=x_l+F(x_l) ]
情報の流れはネットワーク全体に一貫して渡り、各層がそれに単純に加算するだけです。
セットアップ
標準的な残差接続は、すべてのモダントランスフォーマーの骨格です。
考え方はシンプルです:
[ x_{l+1}=x_l + F(x_l) ]
- 入力は変わらずそのまま流れ、層の出力が加算される。
- 一つの情報ストリーム:入力したものがそのまま出てきて、学習済みの更新を経て返ってくる。
これによりトランスフォーマーは何百層にもわたる深さを持つことができる。後方への勾配パスがクリーンであるためです。シンプルで安定、2016 年から変わらない構造です。
ハイパー接続(Hyper‑Connections)は別のアプローチを取ります。一つのストリームではなく、学習可能な混合行列で n 本の並列ストリームへ拡張します:
[ x_{l+1}=H^{res}_l,x_l + H^{post,T}_l,F!\big(H^{pre}_l x_l,; W_l\big) ]
情報の流れを制御する三つの行列があります。
| 行列 | 役割 |
|---|---|
| (H^{res}) | 残差経路でストリームを混合(赤い交差) |
| (H^{pre}) | 層に入る前にストリームを結合 |
| (H^{post}) | 層の出力を再びストリームへ分配 |
ハイパー接続は表現力が高く、計算オーバーヘッドもほとんど増えません。理論上性能向上が期待できます。
問題点? それらの混合行列には制約がなく、信号を増幅することも可能です。
爆発
学習率を強く設定した場合、ハイパー接続(HC)の信号増幅は 7 倍 に達し、その後崩壊しました。
Amax(行と列の絶対和の最大値)は行列がどれだけ信号を増幅できるかを測ります:
| 制約なし (HC) | 1.1 × 1.1 | 1.2 × 1.32 | 1.15 × 1.52 | … | 60 層後: 304 × |
|---|---|---|---|---|---|
| 制約付き (mHC) | 1.0 × 1.0 | 1.0 × 1.0 | 1.0 × 1.0 | … | 60 層後: 1.0 × |
10M パラメータ規模では耐えられますが、DeepSeek は 27B で次のように報告しています:
“Amax Gain Magnitude yields extreme values with peaks of 3000”
これはタイプミスではなく、三千倍の増幅です。27B のパラメータ規模で制約なし HC は単なる漂移ではなく爆発しました。10M 再現で 9.2× に達したことが、この指数関数的失敗への早期警告となります。
小さな増幅でも累積すると、スケールに応じて破綻します。
修正:マニフォールドを制約する
DeepSeek の解決策はシンプルです:混合行列を 二重確率行列(doubly stochastic)に限定します。
二重確率行列の条件:
- すべての要素が非負
- 行ごとの和が 1
- 列ごとの和が 1
つまり、混合操作はストリームを加重平均するだけで、増幅は不可能です。
Sinkhorn–Knopp アルゴリズム
任意の行列(生の学習重み)から開始 すべての要素を正にするため指数関数化:P = exp(H) 各行を 1 に合わせるよう正規化 各列を 1 に合わせるよう正規化 ステップ3-4 を収束まで繰り返す
- 行と列の交互正規化。
- 20 回程度で十分。
この手順は微分可能で、20 回分の反向伝搬が可能です。ネットワークは生の重み (H_H) を学習し、Sinkhorn が実際の混合行列を常に二重確率に保ちます:
[ P^{(t+1)} = \text{ColNorm}!\big(\text{RowNorm}(P^{(t)})\big) ]
完全な Sinkhorn 処理は (H^{res}) のみで、入力/出力ミキサー((H^{pre}, H^{post}))はシグモイドで制限します。Sinkhorn の計算コストは最も重要な箇所に限定されます。
結果
深さ 24 の 3 シードでの実験結果:
| モデル | 損失(平均 ± 標準偏差) | 最大 Amax(平均 ± 標準偏差) |
|---|---|---|
| HC | 0.884 ± 0.033 | 6.77 ± 0.60 |
| mHC | 1.116 ± 0.012 | 1.00 ± 0.00 |
- HC は生の性能で勝利:0.88 対 1.12 の検証損失。
- 10M パラメータ規模では、mHC の制約は「安定税」として機能し、表現力を犠牲にします。
- 27B 規模では、この税がモデルを NaN に飛び散るのを防ぐ唯一の手段です。
注意すべきは分散です:HC の損失はシードごとに 3 倍 変動(± 0.033 vs ± 0.012)。Amax はシードによって 6.1 から 7.6 に揺れますが、mHC は常に 1.00 ― 分散ゼロです。
深さのスケーリング
- より深いモデルは性能向上しますが、増幅も不安定になります。
- 損失は深さ 20(0.85)でピーク。
- Amax は予測困難:深さ 20 が 9.2× に跳ね上がり、12 が 6.6× 、8 は 4.3× のままです。
実験詳細
| 項目 | 値 |
|---|---|
| データセット | TinyShakespeare(約 1M 文字、キャラクターレベル) |
| モデル | GPT‑2 アーキテクチャ、約 10M パラメータ |
| 訓練 | 5000 ステップ、AdamW (β₁=0.9, β₂=0.95)、重み減衰 0.1、コサイン LR ディケイ |
| ハードウェア | Apple M‑シリーズ(MPS) |
| 深さスイープ | 8 構成(6–24 層)、幅は約 11M パラメータを維持 |
| シード変動 | 3 シード(42, 123, 456)で深さ 24 |
なぜ重要なのか
残差接続は勾配を流すためのトリック以上のものです。
物理学における保存則は可能性を制限しながら予測を可能にします。残差の恒等写像は任意変換を防ぎ、信号量が保たれることを保証します。
HC はこの保存則を破り、mHC はそれを回復します——ただ単に恒等へ戻るのではなく、信号を守りつつより豊かなマニフォールドを見つけ出すのです。
まとめ
- 制約付き混合行列は制限ではなく保証です。
- 二重確率投影は安定性を強制し、不良挙動を不可能にします。
- HC はより表現力豊かですが脆弱;mHC は標準残差よりも表現力が高く、安定保証があります。
今後(パート 2)
- A100 上で 10億パラメータへスケールアップ。
- C4 データセットを固定幅(ボトルネックなし)で使用。
- 3000× の Amax レジームに挑戦。
10M パラメータでは HC が 9.2× に達しましたが、パート 2 でその限界を示します。
リソース
- 論文: Manifold‑Constrained Hyper‑Connections (arXiv 2512.24880)
- 関連: Deep Residual Learning(He et al., 2016)
@TayKolasinski をフォローし、木曜日にパート 2 をチェックしてください。