
2025/12/07 21:23
Google Titans architecture, helping AI have long-term memory
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
Titans は、深層ニューラルネットワークを長期記憶モジュールとして採用し、高速線形再帰ダイナミクスとトランスフォーマー風の精度を融合させた新しいアーキテクチャです。MIRAS 理論枠組みに基づき、メモリ構造・注意バイアス・保持ゲート・メモリアルゴリズムという4つの設計選択肢を定義し、非ユークリッド的目的を推進します。Titans は、新情報に対してメモリを選択的に更新するためのサプライズ指標(現在のメモリ状態と新しい入力との勾配)を導入し、モーメンタムと適応型忘却ゲートも併用します。YAAD、MONETA、MEMORA などの MIRAS バリアントは、外れ値への頑健性、より厳格なペナルティ、および安定性向上を提供します。C4、WikiText、HellaSwag、PIQA、ゲノムタスク、BABILong ベンチマークでの評価において、Titans とそのバリアントは Transformer++、Mamba‑2、Gated DeltaNet などのリーディングモデルを上回り、パラメータ数が少なくても最先端の結果を達成しています。消去実験では、より深いメモリモジュールが困惑度を低減し、長いシーケンスでスケールアップすることが確認されています。このアーキテクチャは高速線形推論と並列化可能なトレーニングをサポートしつつ、200万語以上のコンテキストウィンドウに拡張できます。重要なのは、MIRAS がオンライン最適化、結合記憶、およびアーキテクチャ設計を統一し、モデルがデータストリームとして継続的に学習するリアルタイム適応を可能にしている点です。総じて、Titans と MIRAS は、高精度を犠牲にせずに非常に長いシーケンスを扱う効率的で表現力豊かな長文脈 AI への重要な一歩を示しています。
(元の言い回しがほぼすべての主要ポイントを捉えている場合は、BABILong と明示的な MIRAS 設計選択肢のみが欠けています。)
本文
Transformer アーキテクチャは、注意機構を導入することでシーケンスモデリングを革命的に変えました。
モデルは過去の入力を参照しながら関連情報に優先順位を付けますが、計算コストはシーケンス長とともに急激に増大します。そのため、全文書理解やゲノム解析など極めて長いコンテキストへ拡張することが難しくなっています。
研究者たちは、効率的な線形 RNN(リカレントニューラルネットワーク)や Mamba‑2 のような状態空間モデル(SSM)といった様々な解決策を検討しています。
これらはコンテキストを固定サイズに圧縮して高速で線形スケーリングを実現しますが、非常に長いシーケンスの豊かな情報を十分に捉えることはできません。
今回の2本の論文―Titans と MIRAS―では、RNN の速度と Transformer の精度を組み合わせたアーキテクチャと理論的設計図を提示します:
- Titans は具体的なアーキテクチャ(ツール)です。
- MIRAS は一般化のための理論フレームワーク(設計図)です。
これらは test‑time memorization の概念を進化させ、AI モデルが「サプライズ」指標を活用しながら実行時に長期記憶を維持できるようにします。オフラインでの再学習は不要です。
Titans:リアルタイムで新しいコンテキストを学習
有効な学習システムには、短期記憶と長期記憶を分離しつつ相互に関連するメモリーモジュールが必要です。人間の脳と同様に、注意機構は精密で短期的な情報保持に優れていますが、Titans は従来 RNN で使われる固定サイズベクトルや行列とは異なる「深層ニューラルネットワーク」(具体的にはマルチレイヤパーセプトロン)を長期記憶モジュールとして導入します。
このモジュールは表現力が高く、大量の情報を重要なコンテキストを失わずに要約できます。
主な特徴
- アクティブラーニング – Titans は入力全体でトークン間の関係や概念的テーマを認識し保持する方法を学習します。
- サプライズ指標 – 現在記憶している情報と新しい入力との大きな差異を検知します。
- 低サプライズ:例)「cat」→すでに動物語が期待されている → 記憶せずスキップ。
- 高サプライズ:例)財務報告書中のバナナ皮 → 永続保存を優先。
- モメンタム – 一時的なサプライズと過去のサプライズを考慮し、関連情報を捕捉します。
- 忘却(重み減衰) – 必要なくなった情報を適応的に削除するゲートで有限メモリ容量を管理します。
MIRAS:シーケンスモデリングの統一的視点
Transformer や高速線形 RNN など、シーケンスモデリングの主要ブレークスルーはすべて「高度に複雑な結合記憶モジュール」という同じものです。MIRAS は AI モデリングを「新情報と古いメモリを効率的に統合し、重要概念を失わない」ための異なる手法として捉えます。
MIRAS はシーケンスモデルを以下の4つの設計選択で定義します:
- メモリアーキテクチャ – 情報を保存する構造(ベクトル、行列、または深層 MLP)。
- 注意バイアス – モデルが優先すべきものを決める内部学習目的。
- 保持ゲート – メモリ正則化;忘却メカニズムを「新旧情報のバランス」を取る特定形式の正則化として再解釈します。
- メモリアルゴリズム – メモリ更新に用いる最適化アルゴリズム。
平均二乗誤差(MSE)パラダイムを超えて
ほぼすべての成功したシーケンスモデルは、バイアスと保持に MSE やドット積類似度を用いています。これらは外れ値に敏感で表現力が限定されます。MIRAS は最適化や統計学文献からインスパイアされた豊かな設計空間を探索する生成的枠組みを提供し、制限を超えます。
MIRAS を用いて、注意機構のない3つの具体モデルを作成しました:
- YAAD – Huber 損失を使用して大きな誤差(外れ値)への感度を低減。
- MONETA – より厳格な数学的ペナルティを課す一般化ノルムを探索。
- MEMORA – メモリが確率マップとして機能し、更新を制御・バランスさせるよう強制。
実験と結果
Titans と MIRAS の各変種(YAAD, MONETA, MEMORA)を Transformer++, Mamba‑2, Gated DeltaNet などの最先端アーキテクチャと徹底的に比較しました。さらに、Titans をゲノムモデリング(DNA)や時系列予測で検証し、テキスト以外でも汎用性を示しました。
- C4, WikiText などの標準言語モデルデータセットと HellaSwag, PIQA のゼロショット推論タスクにおいて、当社モデルは一貫して高い精度と低いパープレキシティを実現。
- アブレーション研究では、より深いメモリアーキテクチャがパープレキシティの低減と長さ増加時のスケーリング性能向上に寄与。
- 言語モデルおよび常識推論タスクで、Titans は同等サイズの線形 RNN や Transformer++ ベースラインを上回る。
- 超長文(2 百万トークン以上)の文脈で事実間推論が必要な BABILong ベンチマークでは、GPT‑4 を含むすべてのベースラインを上回り、パラメータ数も格段に少ない。
結論
Titans と MIRAS の導入はシーケンスモデリングにおける重要な進展です。
深層ニューラルネットワークを記憶モジュールとして採用し、データが流れるにつれてメモリ化することで固定サイズの再帰状態の制約を克服します。MIRAS はオンライン最適化、結合記憶、およびアーキテクチャ設計間のつながりを明らかにし、強力な理論的統一を提供します。
標準 Euclidean パラダイムを超えることで、RNN の効率と長期コンテキストで必要な表現力を兼ね備えた次世代シーケンスモデルへの道が開かれます。