
2026/01/09 1:31
**ダイナミック・ラージ・コンセプトモデル:適応的意味空間における潜在推論**
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
Dynamic Large Concept Models(DLCM)は、Xingwei Qu、Shaowen Wang、Zihao Huang、Kai Hua、Fan Yin、Rui‑Jie Zhu、Jundong Zhou、Qiyang Min、Zihao Wang、Yizhi Li、Tianyu Zhang、He Xing、Zheng Zhang、Yuxuan Song、Tianyu Zheng、Zhiyuan Zeng、Chenghua Lin、Ge Zhang、および Wenhao Huang によって導入された新しい階層的言語モデリングフレームワークです。DLCMはデータから直接可変長の「概念」を学習し、事前に定義された言語単位に依存せずにエンドツーエンドで意味境界を発見します。このモデルは計算を個々のトークンから圧縮された概念空間へシフトし、トークンレベル容量、概念レベル推論容量、および全体的な圧縮率を分離する圧縮対応スケーリング法則を使用します。μPパラメータ化の解耦により、再訓練なしで異なるモデル幅と圧縮設定間でゼロショットハイパーパラメータ転送が可能です。
実際には、4倍(概念あたり平均4トークン)の圧縮率を使用すると、DLCMは推論計算の約3分の1をより高容量の推論バックボーンに再配分します。この再配分により、12 のゼロショットベンチマークで平均 +2.69 % の改善が得られ、総浮動小数点演算(FLOPs)は一定に保たれます。アプローチはトークンレベルの計算を削減し推論品質を向上させることで、大規模言語モデルのより効率的なデプロイメントを可能にし、固定された計算予算で運用する開発者や企業に利益をもたらします。
本論文は PDF および実験 HTML フォーマットで入手できます。提出履歴では、v1 が 2025年12月31日に (2,886 KB) 提出され、v2 が 2026年1月5日に (2,887 KB) に更新されています。
本文
著者:
ク・シンウェイ、ワン・シャオウェン、ファン・ズハオ、ホア・カイ、イン・ファン、チュ―ジエー・ズ(Rui‑Jie Zhu)、ジョンドン・ズー、ミン・キヤン、ワン・ズハオ、リ・イージ(Yizhi Li)、ジャン・ティアンユウ、ヘ・シン、ジャング・ゼン、ソン・ユクエン、チェン・ターニュ、ジエン・ザン、リン・チョンフア、チャン・ズ、ウェンハオ・ファン
PDF | HTML(実験的)を表示
要旨
大規模言語モデル(LLM)は全てのトークンに対して均一な計算量を割り当てますが、言語は情報密度が極めて不均一です。この「トークン単位での均一処理」では、局所的に予測可能な部分に過剰なリソースが使われ、意味的に重要な遷移に対して計算量が不足します。
本研究では Dynamic Large Concept Models (DLCM) を提案します——これは階層型言語モデリングフレームワークであり、潜在表現から語義境界を学習し、トークン単位の処理から、推論がより効率的に行える圧縮された「概念空間」へと計算リソースをシフトします。DLCM は事前定義された言語単位に依存せず、エンドツーエンドで可変長の概念を発見します。階層的な圧縮はスケーリング挙動を根本的に変えます。
さらに、圧縮感知型スケーリング法則 を初めて導入し、トークンレベルの容量、概念レベルでの推論容量、および圧縮率を分離します。これにより、固定 FLOPs の下で計算資源を原理的に割り当てることが可能になります。
このヘテロジニアス構造を安定して訓練するために、幅と圧縮レベルを横断した デコップリング μP パラメータ化 を開発しました。これにより、ゼロショットでハイパーパラメータの転送が実現します。
実用設定(R = 4、概念あたり平均 4 トークン)では、DLCM は推論計算量の約三分の一を高容量推論バックボーンへ再配分し、12 のゼロショットベンチマークで +2.69 % の平均改善を達成しました(推論 FLOPs を合わせた場合)。
提出履歴
- 送信者:ク・シンウェイ(メール閲覧)
- v1: 2025年12月31日(水)04:19:33 UTC(2,886 KB)
- v2: 2026年01月05日(月)05:44:29 UTC(2,887 KB)