
2026/05/27 0:36
LLM の睡眠のような統合メカニズム
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
新たな睡眠類似の統合メカニズムにより、大規模言語モデルは予測速度を損なうことなく非常に長いコンテキストを処理できるようになります。オフラインにおける「睡眠」フェーズでは、モデルは蓄積されたコンテキストに対して N 回にわたる反復パスを行い、最近の情報を変数状態空間モデル(SSM)ブロック内の永続的な高速重みへと変換し、キーバリューキャッシュをクリアします。この重い計算を睡眠中にシフトさせることで、システムはアクティブな使用時の低レイテンシーを維持し、コンテキストの拡張に伴って標準トランスフォーマーの性能制限となる注意機構のスケーリングボトルネックに対処します。合成タスク(細胞自動機とマルチホップグラフ検索)および従来のトランスフォーマーおよび SSM 注意ハイブリッドとも以前に失敗した現実的な数学推論タスクにおいて検証され、このアプローチは睡眠期間 N を増やすことが性能を大幅に向上させ、特に深い推論を必要とする問題で最大の効果をもたらすことを示しています。このスケーラブルなアーキテクチャにより、リアルタイムかつ低レイテンシーの要件を満たしつつ、長期 horizon タスク向けの高パフォーマンスモデルの展開が可能になります。
Text to translate:
Summary:
A new sleep-like consolidation mechanism enables large language models to handle very long contexts without sacrificing prediction speed. During an offline "sleep" phase, the model performs N recurrent passes over its accumulated context to convert recent information into persistent fast weights within state-space model (SSM) blocks and then clears its key-value cache. By shifting this heavy computation to sleep, the system maintains low latency during active use, addressing the attention-scaling bottleneck that limits standard transformers as context grows. Validated on synthetic tasks (cellular automata and multi-hop graph retrieval) and a realistic math reasoning task where both regular transformers and SSM-attention hybrids previously failed, the approach shows that increasing the sleep duration N substantially improves performance, with the largest gains in problems requiring deep reasoning. This scalable architecture allows deployment of high-performance models on long-horizon tasks while meeting real-time, low-latency requirements.
本文
睡眠による固定化メカニズム:長期予測タスクにおけるトランスフォーマーの性能向上
課題背景
- トランスフォーマーベースの大規模言語モデルは、長期予測タスクへの活用が進展している。
- 一方で、従来の注意機構にはコンテキスト長の拡張性に関する課題が存在する。
解決のアプローチ:睡眠固定化メカニズム
本研究では、この課題に対し、「睡眠状態における固定化メカニズム」を採用することでアプローチを行った。
メカニズムの概要
- キー・バリューキャッシュのクリア前に処理を実行する。
- 直近のコンテキストを、永続的な**「高速重み」**に変換して記憶化する。
- この状態を「睡眠期間」と定義し、蓄積されたコンテキストに対して以下の処理を行う:
- N 回のオフライン再帰処理を実行する。
- 状態空間モデル(SSM)ブロック内の高速重みを更新する。
- 更新規則は、学習に基づいた局所的な規則を採用する。
計算コストとレイテンシの維持
- 推論時には追加的な計算を行わない。
- 計算負荷を睡眠時にシフトさせることで、覚醒時の予測レイテンシは維持される。
検証結果
この手法を以下のタスクで検証したところ、優れた性能を示した。
タスクカテゴリ
- 制御された合成タスク
- セルロース自動機械
- 複数ジャンプのグラフ検索 など
- 現実的な数学的推論タスク
- トランスフォーマーのみや SSM-注意力ハイブリッドモデルでは失敗した事例において、高い成功率を達成。
パフォーマンス向上の要因
- 睡眠期間 N を増加させることでモデルのパフォーマンスが明確に向上する。
- 特に深い推論を要するタスクにおいて、顕著な改善効果が確認された。