DeepSeek の MHC を再現:残差接続が爆発する際の挙動

2026/01/12 22:57

DeepSeek の MHC を再現:残差接続が爆発する際の挙動

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

要約:
本稿では、2016 年以降トランスフォーマーの基盤となってきた標準的な残差接続 (x_{l+1}=x_l + F(x_l)) が、Hyper‑Connections(HC)に拡張されると不安定になる様子を検証しています。HC は学習可能な混合行列 (H^{res})、(H^{pre})、および (H^{post}) を備えた複数の並列ストリームを導入しますが、制約のない HC では信号が指数的に増幅される恐れがあります。27 B パラメータの DeepSeek モデルでは、これにより Amax ピークが約 3000 に達し、訓練が崩壊しました。
著者は、混合行列を双方向確率行列(非負要素で各行と各列の和が 1)に制限することで、演算を加重平均へ変換し、増幅を防ぎつつストリームのルーティング/シャッフリング/ブレンドを許容すると提案しています。この制約は Sinkhorn–Knopp アルゴリズム(行・列正規化を交互に 20 回)を用いて訓練中に強制されます。
約10 M パラメータの TinyShakespeare モデルで実験した結果、制約のない HC は Amax を最大約9.2倍まで達成する一方、制限付き mHC は常に 1.0 に留まります。制約のない HC は検証損失が低い(~0.88 対 ~1.12)ものの、ランダムシード間での分散が大きく(±0.033 対 ±0.012)、層数を増やすと深さ 20 まで性能が向上しますが、それ以降は幅のボトルネックにより回帰および混乱した Amax 行動が観測されます。
本稿では、mHC を標準的な残差接続を保護しつつ表現力を拡張する理論的制約として位置づけています。将来の作業(パート 2)では、A100 GPU 上で 1 B パラメータモデルへスケールし、より高い Amax レジームにおける不安定性と深さ–幅トレードオフをさらに検討します。

(原文の語彙を保持したまま追加情報を加える場合)

「将来の作業(パート 2)は、A100 GPU 上で 1 B パラメータモデルへ mHC をスケールし、高い Amax レジームにおける不安定性と深さ–幅トレードオフをさらに精緻化します。」

これにより元の構造を保ちつつ、すべての重要ポイントが表現されます。

本文

2026年1月11日

あなたが今まで使ったすべてのトランスフォーマーは、2016 年に登場した残差接続設計を共有しています:GPT‑5、Claude、Llama、Gemini。裏で行われていることは同じです。

[ x_{l+1}=x_l+F(x_l) ]

情報の流れはネットワーク全体に一貫して渡り、各層がそれに単純に加算するだけです。


セットアップ

標準的な残差接続は、すべてのモダントランスフォーマーの骨格です。
考え方はシンプルです:

[ x_{l+1}=x_l + F(x_l) ]

  • 入力は変わらずそのまま流れ、層の出力が加算される。
  • 一つの情報ストリーム:入力したものがそのまま出てきて、学習済みの更新を経て返ってくる。

これによりトランスフォーマーは何百層にもわたる深さを持つことができる。後方への勾配パスがクリーンであるためです。シンプルで安定、2016 年から変わらない構造です。

ハイパー接続(Hyper‑Connections)は別のアプローチを取ります。一つのストリームではなく、学習可能な混合行列で n 本の並列ストリームへ拡張します:

[ x_{l+1}=H^{res}_l,x_l + H^{post,T}_l,F!\big(H^{pre}_l x_l,; W_l\big) ]

情報の流れを制御する三つの行列があります。

行列役割
(H^{res})残差経路でストリームを混合(赤い交差)
(H^{pre})層に入る前にストリームを結合
(H^{post})層の出力を再びストリームへ分配

ハイパー接続は表現力が高く、計算オーバーヘッドもほとんど増えません。理論上性能向上が期待できます。

問題点? それらの混合行列には制約がなく、信号を増幅することも可能です。


爆発

学習率を強く設定した場合、ハイパー接続(HC)の信号増幅は 7 倍 に達し、その後崩壊しました。

Amax
(行と列の絶対和の最大値)は行列がどれだけ信号を増幅できるかを測ります:

制約なし (HC)1.1 × 1.11.2 × 1.321.15 × 1.5260 層後: 304 ×
制約付き (mHC)1.0 × 1.01.0 × 1.01.0 × 1.060 層後: 1.0 ×

10M パラメータ規模では耐えられますが、DeepSeek は 27B で次のように報告しています:

“Amax Gain Magnitude yields extreme values with peaks of 3000”

これはタイプミスではなく、三千倍の増幅です。27B のパラメータ規模で制約なし HC は単なる漂移ではなく爆発しました。10M 再現で 9.2× に達したことが、この指数関数的失敗への早期警告となります。

小さな増幅でも累積すると、スケールに応じて破綻します。


修正:マニフォールドを制約する

DeepSeek の解決策はシンプルです:混合行列を 二重確率行列(doubly stochastic)に限定します。

二重確率行列の条件:

  1. すべての要素が非負
  2. 行ごとの和が 1
  3. 列ごとの和が 1

つまり、混合操作はストリームを加重平均するだけで、増幅は不可能です。

Sinkhorn–Knopp アルゴリズム

任意の行列(生の学習重み)から開始
すべての要素を正にするため指数関数化:P = exp(H)
各行を 1 に合わせるよう正規化
各列を 1 に合わせるよう正規化
ステップ3-4 を収束まで繰り返す
  • 行と列の交互正規化。
  • 20 回程度で十分。

この手順は微分可能で、20 回分の反向伝搬が可能です。ネットワークは生の重み (H_H) を学習し、Sinkhorn が実際の混合行列を常に二重確率に保ちます:

[ P^{(t+1)} = \text{ColNorm}!\big(\text{RowNorm}(P^{(t)})\big) ]

完全な Sinkhorn 処理は (H^{res}) のみで、入力/出力ミキサー((H^{pre}, H^{post}))はシグモイドで制限します。Sinkhorn の計算コストは最も重要な箇所に限定されます。


結果

深さ 24 の 3 シードでの実験結果:

モデル損失(平均 ± 標準偏差)最大 Amax(平均 ± 標準偏差)
HC0.884 ± 0.0336.77 ± 0.60
mHC1.116 ± 0.0121.00 ± 0.00
  • HC は生の性能で勝利:0.88 対 1.12 の検証損失。
  • 10M パラメータ規模では、mHC の制約は「安定税」として機能し、表現力を犠牲にします。
  • 27B 規模では、この税がモデルを NaN に飛び散るのを防ぐ唯一の手段です。

注意すべきは分散です:HC の損失はシードごとに 3 倍 変動(± 0.033 vs ± 0.012)。Amax はシードによって 6.1 から 7.6 に揺れますが、mHC は常に 1.00 ― 分散ゼロです。


深さのスケーリング

  • より深いモデルは性能向上しますが、増幅も不安定になります。
  • 損失は深さ 20(0.85)でピーク。
  • Amax は予測困難:深さ 20 が 9.2× に跳ね上がり、12 が 6.6× 、8 は 4.3× のままです。

実験詳細

項目
データセットTinyShakespeare(約 1M 文字、キャラクターレベル)
モデルGPT‑2 アーキテクチャ、約 10M パラメータ
訓練5000 ステップ、AdamW (β₁=0.9, β₂=0.95)、重み減衰 0.1、コサイン LR ディケイ
ハードウェアApple M‑シリーズ(MPS)
深さスイープ8 構成(6–24 層)、幅は約 11M パラメータを維持
シード変動3 シード(42, 123, 456)で深さ 24

なぜ重要なのか

残差接続は勾配を流すためのトリック以上のものです。
物理学における保存則は可能性を制限しながら予測を可能にします。残差の恒等写像は任意変換を防ぎ、信号量が保たれることを保証します。

HC はこの保存則を破り、mHC はそれを回復します——ただ単に恒等へ戻るのではなく、信号を守りつつより豊かなマニフォールドを見つけ出すのです。


まとめ

  • 制約付き混合行列は制限ではなく保証です。
  • 二重確率投影は安定性を強制し、不良挙動を不可能にします。
  • HC はより表現力豊かですが脆弱;mHC は標準残差よりも表現力が高く、安定保証があります。

今後(パート 2)

  1. A100 上で 10億パラメータへスケールアップ。
  2. C4 データセットを固定幅(ボトルネックなし)で使用。
  3. 3000× の Amax レジームに挑戦。

10M パラメータでは HC が 9.2× に達しましたが、パート 2 でその限界を示します。


リソース

  • 論文: Manifold‑Constrained Hyper‑Connections (arXiv 2512.24880)
  • 関連: Deep Residual Learning(He et al., 2016)

@TayKolasinski をフォローし、木曜日にパート 2 をチェックしてください。

同じ日のほかのニュース

一覧に戻る →

2026/01/13 4:27

了解しました!内容は明確で簡潔に保ちます。余分な改行や不必要な記号は入れず、リストがある場合は読みやすいようにきちんとインデントします。他にご要望がございましたら、お気軽にお知らせくださいね!

## Japanese Translation: **改訂された概要** CoworkはClaude Maxをベースにしたリサーチプレビュー・ツールで、現在はmacOSアプリを通じてMaxサブスクライバー向けに利用可能です。ユーザーが自分のコンピュータ上の特定フォルダへのClaudeのアクセス権を付与すると、そのフォルダ内のファイルを読み取り・編集・作成できるようになります。これにより、ダウンロードの整理、スクリーンショットからスプレッドシートを生成すること、散在したメモからレポートをドラフトするなどのタスクが便利に行えます。 標準的なチャットとは異なり、CoworkはAIにより大きな主体性を与えます。AIはタスクを計画し、実行し、進捗状況を提供します。このツールはClaude Codeと基盤を共有しており、非コーディングの文脈でもコード風の対話が可能です。ユーザーは既存のコネクター(例:ドキュメントやプレゼンテーション)をリンクしたり、Chromeとのペアリングでウェブ閲覧を行ったりして機能を拡張できます。AIは複数タスクをキューに入れ、並列実行することで前後のチャットを減らします。 制御権はユーザーに残ります:Claudeが見るフォルダとコネクターを選択し、大きな操作を行う前にプロンプトが表示されます。ただし、誤った指示でファイルが削除されたり、プロンプトインジェクションが発生するリスクもあるため、安全対策は継続的に開発中です。 このプレビューはフィードバックを集めることを目的としており、将来のリリースではデバイス間同期、Windowsサポート、強化された安全機能、および拡張されたコネクターオプションが追加される可能性があります。Coworkは個人向けにファイル整理を効率化し、手動監視を保ちながらファイルベースのワークフローを自動化する制御可能なAIアシスタントとして設計されています。

2026/01/13 1:04

**TimeCapsuleLLM:** 1800年〜1875年のデータのみで訓練された大規模言語モデル (Note: The length is preserved while using natural, polite Japanese.)

## Japanese Translation: ``` ## Summary TimeCapsule LLM プロジェクトは、歴史的な英語データのみを使用して言語モデルをゼロから構築し、現代のバイアス(「Selective Temporal Training」)を排除します。 - **Model evolution** - *v0* (16 M パラメータ、nanoGPT ベース) は約187 MB の1800年代テキストで訓練され、1800年代風の言語を生成しましたが、一貫性のない文になりました。 - *v0.5* (123 M パラメータ、引き続き nanoGPT) はコーパスを約435 MB に拡張し、文法・句読点を改善しましたが、高い幻覚と OCR ノイズに悩まされました。 - *v1* (700 M パラメータ、Phi 1.5 ベース) は約6.25 GB のデータで訓練され、歴史的事件や人物を正確に思い出せるようになりました。 - *v2mini‑eval1* (300 M パラメータ、90 GB London コーパス全体の15 GBサンプル) はわずか10 K ステップで訓練され、トークナイズ問題により「Who is Charles Dickens?」のような文字化けした出力が生成されました。 - *v2mini‑eval2* (v2mini‑eval1 と同じサイズ・データ) はチャールズ・ダーウィンについて極めて不連続なテキストを生成しました。 - **Dataset** 完全版 v2 データセットは1800–1875 年のロンドン テキストで 90 GB を含み、136,344 ドキュメントから構成されています。15 GB のサンプルは Hugging Face(https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB)で公開されています。 - **Training setup** *v0/v0.5* は GeForce RTX 4060 GPU、i5‑13400F CPU、および 16 GB RAM を使用しました。 *v1* と *v2mini‑eval1* はレンタル NVIDIA A100 SXM GPU 上で訓練されました。 - **Tokenization & evaluation** 時代固有のスペリングと語彙に対応するカスタムトークナイザー(vocab.json & merges.txt)を構築しました。出力は言語的正確さ、幻覚率、およびトークナイズ品質で評価され、バイアス統計は別途 v2 バイアスレポートに記載されています。 - **Future work** 今後の計画として、完全版 90 GB v2 データセットへの拡張、トークナイザーパイプラインの改良、およびより深いバイアス分析を実施します。 - **Impact** このプロジェクトは、歴史家・教育者・AI‑ethics 開発者が時代に即した言語モデルを必要とする際に有益であり、現代バイアスを減らすための時間的選択訓練(temporal selective training)の具体例として NLP コミュニティにも貢献します。 ```

2026/01/13 5:26

ファブリス・ベルラール氏のTS Zip(2024)

## 日本語訳: **概要** ts_zip は、GPU を活用したテキスト圧縮ツールであり、RWKV 169M v4 大規模言語モデル(パラメータを 8 ビットに量子化し、BF16 で評価)を使用してトークン確率を予測し、その予測に基づいて算術符号化を適用します。従来のツールよりも高い圧縮率を達成しています: - alice29.txt – **1.142 bpb**(21,713 B) - book1 – **1.431 bpb**(137,477 B) - enwik8 – **1.106 bpb**(13,825,741 B) - enwik9 – **1.084 bpb**(135,443,237 B) - linux‑1.2.13.tar – **1.021 bpb**(1,196,859 B)。 RTX 4090 上では、ツールは約 1 MB/s の速度で圧縮し、同程度の速度で解凍します。システムに少なくとも **4 GB の RAM** があることが前提です。ts_zip は実験的なものであり、バージョン間の後方互換性は保証されません。また、その性能評価は GPU/CPU またはスレッド数に依存せず、決定論的に行われます。この手法はプレーンテキストファイルで最も効果を発揮し、バイナリデータではエントロピーの削減がほとんど得られません。主に英語で訓練されていますが、他言語やソースコードにも比較的適切に対応します。 ダウンロードリンク: - Linux tarball: `ts_zip‑2024‑03‑02.tar.gz` - Windows ZIP: `ts_zip‑2024‑03‑02-win64.zip` 将来のリリースでは、圧縮率をさらに向上させ、言語サポートを拡大し、可能ならファイルタイプの取り扱いを追加しつつ、ハードウェア間で評価が再現できるようにすることを目指します。GPU リソースを持つユーザー(データアーカイブ担当者や大量テキストコーパスを管理する開発者など)にとって、速度を犠牲にせず高い圧縮率を実現できる最適なツールです