散逸損失が小型言語モデルにおける埋め込み凝縮に拮抗する

2026/07/04 7:35

散逸損失が小型言語モデルにおける埋め込み凝縮に拮抗する

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

小規模な言語モデルは「埋め込み凝縮(embedding condensation)」という現象に見舞われます。これは Liu ほかによる ICML 2026 の論文で特定されたものであり、Transformer レイヤを通じてトークンの埋め込みが、互いにほぼ平行な方向の狭い錐領域へと収束するものです。この問題は、同一ファミリー内のより大きなモデルに比べ、小規模なモデル(例:GPT-2、Qwen3-0.6B)において著しく深刻です。時間とともに悪化する問題とは異なり、凝縮現象は初期化時点で生じ、事前学習によって軽減されます。Olmo-3-1025-7B チェックポイントがこの軌跡を確認しています。知識蒸留を通じた解決の試みは失敗に終わり、Qwen3-32B などの大規模モデルからの蒸留が、凝縮に対する耐性を転移させることは確認されません。この効果はデータセット(wikitext, PubMed_QA, IMDB, SQuAD)を横断して堅牢であり、GPT-2 様のアーキテクチャにおいて MLP の次元のみを変化させるコンファウンダー制御設定下でも成立します。

凝縮への対策として、研究者らは単位超球面上で均一な角度的な分散を保証する「分散ロシス(dispersion loss)」を提案しており、これにより小規模モデルの一般化性能が向上します。検討された代替案には、除相関ロシス、ノルム正則化付きの ℓ2 反発ロシス、そして固定距離マージン 1/2 を持つ直交化ロシスが挙げられます。この設計は、Runqian と Kaiming の「Diffuse and Disperse」論文に灵感を得ており、数値的安定性の向上および対角項の扱いのために適応されています。訓練中に分散ロシスを適用することは、凝縮を著しく軽減しますが、既に凝縮された埋め込みに対しては、訓練中の中途での適用では効果が限定的です。

分散ロシスによる性能向上の効果は小さく、その効果とノイズを分離するには、素初な手法を超えた形式的な統計的検定が必要です。したがって、開発者は分散ロシスを採用して小規模モデルを強化することは可能ですが、これらの変更を運用システムで展開する前に厳格な検証を実施すべきです。本プロジェクトは、2025 年 4 月初頭に取り組み始め、「Transformer に関する数学的視点」という論文の理論的結果、すなわち Transformer レイヤの無限スタッキングが自然に埋め込みのクラスタリングを引き起こすという事実に動機付けられました。今後の作業では、より良い正則化子への開発、SFT/RL ステージ中の凝縮の監視、因果関係の確立、そして本質的に凝縮に対する耐性を持つアーキテクチャの設計を目指します。

本文

散逸損失:埋め込みの凝縮を抑制し、小規模モデルの汎化性能を向上させる

ICML 2026(予定)において発表される本研究は、小規模言語モデル(SLM)の性能向上に向けた新たなアプローチを提示します。

研究の背景と要約

  • 大規模モデルの優位性の正体: 大規模言語モデル(LLM)が小規模言語モデル(SLM)よりも優れた理由について問いかけます。
    • 単なるパラメータ数の多さなのか?
    • データの質なのか?
    • それとも幾何学的な構造の違いなのでしょうか?
  • 核心問題: トランスフォーマー層を通過する過程で、埋め込みベクトルが互いに近づくという現象が SLM の性能低下に影響しています。

埋め込みの凝縮(Embedding Condensation)とは?

トランスフォーマー層ごとの処理において、入力トークンは高次元空間内のベクトルとして表現されます。これらのベクトルは層を通過するにつれて以下のように変化します。

  • 現象: 互いのコサイン類似度が高まり、徐々に平行な方向へ向かっていく。
  • 定義: この幾何学的現象を「埋め込みの凝縮(Embedding Condensation)」と呼びます。
  • 特性:
    1. より小さなモデルでは顕著に現れます(図 2)。
    2. 交絡因子を統制した実験でも再現可能(図 3)。
    3. モデル初期化直後に始まり、事前学習で緩和される(図 4)。
    4. 知識蒸留による解消は期待できない(図 5)。

観察事実と仮説検証

埋め込みの凝縮現象について、以下の 4 つの特性が確認されました。

1. モデルサイズに依存する抵抗性

  • 小規模モデル: トークンの埋め込みベクトルがほぼ平行な方向へ崩壊しやすく、表現力が低下します。
  • 大規模モデル: この崩壊に対する抵抗力を持ち、情報を多角的に保持できます。
  • 結論: 単なる偶然ではなく、システム的な傾向として存在します。

2. データセットへの独立性

  • 入力テキストデータセットの変動によらず、凝縮効果は一貫して観察されます(図 3)。
  • 検証済みデータセット:
    wikitext
    ,
    pubmed_qa
    ,
    imdb
    ,
    squad
    など。

3. 厳密な制御実験での再現性

  • 方法: モデルサイズの効果を抽出するために、MLP の次元のみを変化させ、層数や埋め込み次元などを固定して GPT-2 様モデルを事前学習しました。
  • 結果: 「モデルが大きいほど凝縮が少ない」というトレンドを厳密に再現しました(図 4)。

4. 初期段階からの発生

  • モデルの初期化直後から埋め込みの凝縮は観察されます(図 5)。
  • 事前学習の進捗に伴い、現象は徐々に緩和されるものの完全には消えません。

解決策:散逸損失(Dispersion Loss)

小規模モデルの表現空間利用効率を改善し、大規模モデルに似た性能を得るための解決策として「散逸損失」を設計しました。

仕組みと目標

  • 問題: 凝縮により、ベクトルが狭い錐状の部分空間へ収束し、トランスフォーマーの表現力が低下します。
  • 対策: トレーニング中に埋め込みベクトルを広散(Disperse)させます。
  • 期待効果: パラメータ数を増やすことなく、パフォーマンスのギャップを縮めることが可能です。

損失関数の種類と比較

本研究では、既存のアイデアを実用的に改良した「散逸損失」を採用します(参考:Diffuse and Disperse)。

損失の種類作用特徴
散逸損失 (提案)単位超球面上での角方向の分散を強化埋め込みを広散させ、均一な分布を目指す
非相関損失異なる特徴量次元間の相関を低減コーrelation を保たないよう促す
L2 反発損失ペア間のユークリッド距離を増大ノルム正規化項により無制限の拡散を防ぐ
直交化損失鋭角方向に分散、鈍角は変化なし角度距離において直角(orthogonality)を目指す
  • 数値安定性:
    log-sum-exp
    トリックを採用しています。
  • 実装の注意点: L2 反発損失にはノルム正規化項を含める必要があります。

効果の検証

散逸損失はトレーニングの中期および事前学習段階で、凝縮現象に逆説的に作用します(図 6)。

  • デフォルト: 初期状態からのトレーニングでは影響が限定的です。
  • 散逸損失適用: 埋め込みの凝縮現象が著しく緩和され、表現空間が適切に利用されるようになります。

結論と考察

  • 仮説の確認: 大規模モデルの優位性は単にパラメータ数の多さではなく、潜在的な表現内での情報をどのように整理するかも関係している可能性があります。
  • 展望: この幾何学的な観点からのアプローチは、今後の SLM の性能向上に大きく貢献すると期待されます。

免責事項と注意点

本研究を再現・応用にあたり、以下の点にご注意ください。

  • 埋め込みの凝縮について:

    • 多くのモデルファミリーやデータセットで一貫して観察されました。
    • 特定のランの結果のみを選択(cherry-pick)したものではなく、本質的な観察事実です。
    • ただし、すべてのモデルファミリーがこの現象を持つとは保証できません。
  • 散逸損失について:

    • 効果は modest(控えめ)であり、ノイズから分離するのは困難です。
    • 事前学習実験はコストがかかるため大規模なものに限られました。
    • 推奨: この手法を試す際は、まずはチームの標準的なプロトコルを用いて小規模で検証することを強く推奨します。

今後の展望と課題

さらに性能向上に向けた取り組みとして以下の方向性を挙げます。

  • より優れた正則化項: 現在の散逸損失の利点・欠点を見直し、凝縮に対する逆説作用をより慎重に設計した方法の開発。
  • ステージへの拡張: 有監督ファインチューニング(SFT)や強化学習(RL)など、トレーニング後期での現象の変化を追跡する。
  • メカニズムの解明: 埋め込みの凝縮と汎化能力の間にはより強い因果リンクを確立し、根本原因を特定する。
  • アーキテクチャの革新: 損失関数以外のアプローチで、本質的に凝縮に抵抗できるモデルファミリーやモジュールの設計。
  • 初期化スキームの開発: 幾何学的崩壊への負担を軽減するため、より少ない凝縮状態から始まる初期化手法の開発。

引用情報

@inproceedings{liu2026dispersion,
  title={Dispersion loss counteracts embedding condensation and improves generalization in small language models},
  author={Liu, Chen and Sun, Xingzhi and Xiao, Xi and Van Tassel, Alexandre and Xu, Ke and Reimann, Kristof and Liao, Danqi and Gerstein, Mark and Wang, Tianyang and Wang, Xiao and Krishnaswamy, Smita},
  booktitle={International Conference on Machine Learning},
  year={2026},
  organization={PMLR}
}

同じ日のほかのニュース

一覧に戻る →

2026/07/04 7:40

巨大な木は問題なく水を上枝に送ることができます。

## Japanese Translation: エクセター大学とカーディフ大学が主導する新研究で、Science誌に発表された内容により、世界最高位の熱帯ティトロカルプ属(Dipterocarp)の樹木は、極めて高い位置での水分輸送課題を完全に補償できることが明らかになった。アジアの雨林を支配し、80 メートルを超える高さまで成長する巨大なティトロカルプ属の木々は、より低い木々に比べて旱魃に対する感受性を示さない。これは進化した水理学的適応によるものである。本研究は、2023 年~2024 年の激しいエルニーニョ現象を背景としてマレーシア・ボルネオで行われたものであり、7 メートルから 71 メートルの幅を持つ樹木が旱魃を通じて幹の成長速度を維持したことが見出された。これは、重力と導管の長さが高大型種における光合成および成長を制限するという長年の信念に挑戦するものである。より高いティトロカルプ属の木々は、地面付近で広く水分を運ぶ導管を持つことと、萎れる前により大きな水ストレスに耐えるように適応した葉を持つことによりこれを実現する。これらの適応は、80 メートル以上高く水を移動させるために必要な極めて低い圧力の下でも液体水の形態を維持することを可能にする。これらの結果は、特にアジアの地上バイオマス炭素の半分を貯蔵するティトロカルプ属森林において重要であり、水理学的システムが弱く高大型種では旱魃による急速な死に瀕するという以前の理論を矛盾させるものである。共同著者であるパウロ・ビッテンコート博士は、これらの希少樹木がマレーシア・ボルネオにおける生態学的中心性であることを強調しているが、研究者らは同様の特性を他の高大型樹種においても検討すべきであると指摘している。研究チームには、マレーシア、イギリス、チェコ共和国、ドイツ、スペイン、ブラジル、アメリカ合衆国の機関が含まれており、資金供与は自然環境研究評議会(NERC)からのものである。今後の研究では、ティトロカルプ属を超えた水理学的システムと旱魃耐性の調査を通じて、全球的な旱魃リスク評価および保全戦略を精査していく予定である。

2026/07/04 7:33

Leanstral 1.5:全データに対する証明の豊富さを実現

## Japanese Translation: Leanstral 1.5 は、60 億のアクティブパラメータと全パラメータとして 1190 億を持ち、競合製品のごく一部のコストで最先端のパフォーマンスを達成する無料の Apache-2.0 ライセンスモデルです。このモデルは miniF2F でサチュレーション(検証セットとテストセットで両方 100%)を達成し、PutnamBench の問題のうち 672 問中 587 問を解決します(25k トークンの予算では 44 問から、4M トークンの予算では 587 問へ向上)。FATE-H ベンチマークでは 87% の精度、FATE-X ベンチマークでは 34% の精度を達成しています。中学習(mid-training)、監督微調整、CISPO を用いた強化学習、特定の定理に対する安全性チェックを経て訓練された Leanstral 1.5 は、複数回のターンにわたる定理証明および生ファイルシステムでのコードエージェントにおけるエージェント型証明工学において卓越しています。ターゲットとなる定理のリストを用いて SafeVerify のフォーク版で検証され、このモデルは問題あたり約 $4 のコストがかかります(Seed-Prover の $300 以上や Aleph Prover の $54–68 に比べて著しく低く)、かつ大きなトークン予算と共によくスケーリングします。実際の運用では、オープンソースライブラリにおける微細なバグを検出し、57 リポジトリにわたって以前に知られていなかった 5 つのバグを発見しました。その例として、datrs/varinteger ライブラリにおいて `(value + 1)` が `Std.U64.MAX` 入力に対してオーバーフローした整数オーバーフローがありました。このモデルは Hugging Face で重みファイルおよび無料の API エンドポイント(leanstral-1-5)として利用可能です。ユーザーは Mistral Vibe(`uv tool install mistral-vibe`)で実行でき、Lean LSP MCP の設定をオプションで行うことで、その能力を活用し、高次の定理証明やバグ探索を行えるようにしながら、莫大なコストなしに動作させられます。

2026/07/04 6:49

AMD MI355X 上で GLM5.2 を実行し、コストは Blackwell よりも 2 倍以上低減してノードあたり 2626 トークン/秒を達成

## Japanese Translation: AMD の新しい Instinct MI355X アクセラレータは、NVIDIA の B シリーズ GPU に対して魅力的な代替手段を提供しており、B300 と比較して約 2.75 倍安い GPU 単価で同様のハードウェア仕様を備えています。また、B200 には 2 倍以上安いです。歴史的に CUDA エコシステムを通じて「day-0」の優位性を保持してきた NVIDIA ですが、AMD はこの格差を急速に縮めています。ROCm は当初、MI355X 上で GLM-5.2 のような frontier モデルに対してネイティブなサポートがなかったものの、ターゲットされた最適化によって B200 のノードあたり性能の約 80% を対価の少なさで実現しました。主要なブリークスルーとしては、AMD Quark を用いて損失のない MXFP4 量子化を実現し(公式の FP8 の制限を上回る)、出力劣化を伴わずに堅牢なネイティブ MXFP4 サポートのために sglang を選択し、モジュールプレフィックス不一致を修正したり、ROCm メタデータ カーネルガードを追加したりする特定のパッチを適用することで推測デコーディングの利点を解放(約 3 倍)した点があります。戦略的な構成チューニング(例えば TP4×DP2 への移行)や fp4 シェイプ用の MoE カーネルの最適化を通じて、カスタムカーネルを書かずにシングルノードデプロイメントで 2626 tok/s/node という SOTA の総通量を実現しました。この戦略は推論ワークロードに対して有効であり、AMD が NVIDIA の市場的地利を成功裏に侵食し、低コストで高計算能力を実現していることを示しています。また、マルチノードスケーリングに関する課題がまだ残るものの、よりバランスの取れた競争環境が育まれていることを意味します。