Google Titans architecture, helping AI have long-term memory

2025/12/07 21:23

Google Titans architecture, helping AI have long-term memory

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
Titans は、深層ニューラルネットワークを長期記憶モジュールとして採用し、高速線形再帰ダイナミクスとトランスフォーマー風の精度を融合させた新しいアーキテクチャです。MIRAS 理論枠組みに基づき、メモリ構造・注意バイアス・保持ゲート・メモリアルゴリズムという4つの設計選択肢を定義し、非ユークリッド的目的を推進します。Titans は、新情報に対してメモリを選択的に更新するためのサプライズ指標(現在のメモリ状態と新しい入力との勾配)を導入し、モーメンタムと適応型忘却ゲートも併用します。YAAD、MONETA、MEMORA などの MIRAS バリアントは、外れ値への頑健性、より厳格なペナルティ、および安定性向上を提供します。C4、WikiText、HellaSwag、PIQA、ゲノムタスク、BABILong ベンチマークでの評価において、Titans とそのバリアントは Transformer++、Mamba‑2、Gated DeltaNet などのリーディングモデルを上回り、パラメータ数が少なくても最先端の結果を達成しています。消去実験では、より深いメモリモジュールが困惑度を低減し、長いシーケンスでスケールアップすることが確認されています。このアーキテクチャは高速線形推論と並列化可能なトレーニングをサポートしつつ、200万語以上のコンテキストウィンドウに拡張できます。重要なのは、MIRAS がオンライン最適化、結合記憶、およびアーキテクチャ設計を統一し、モデルがデータストリームとして継続的に学習するリアルタイム適応を可能にしている点です。総じて、Titans と MIRAS は、高精度を犠牲にせずに非常に長いシーケンスを扱う効率的で表現力豊かな長文脈 AI への重要な一歩を示しています。

(元の言い回しがほぼすべての主要ポイントを捉えている場合は、BABILong と明示的な MIRAS 設計選択肢のみが欠けています。)

本文

Transformer アーキテクチャは、注意機構を導入することでシーケンスモデリングを革命的に変えました。
モデルは過去の入力を参照しながら関連情報に優先順位を付けますが、計算コストはシーケンス長とともに急激に増大します。そのため、全文書理解やゲノム解析など極めて長いコンテキストへ拡張することが難しくなっています。

研究者たちは、効率的な線形 RNN(リカレントニューラルネットワーク)や Mamba‑2 のような状態空間モデル(SSM)といった様々な解決策を検討しています。
これらはコンテキストを固定サイズに圧縮して高速で線形スケーリングを実現しますが、非常に長いシーケンスの豊かな情報を十分に捉えることはできません。

今回の2本の論文―TitansMIRAS―では、RNN の速度と Transformer の精度を組み合わせたアーキテクチャと理論的設計図を提示します:

  • Titans は具体的なアーキテクチャ(ツール)です。
  • MIRAS は一般化のための理論フレームワーク(設計図)です。

これらは test‑time memorization の概念を進化させ、AI モデルが「サプライズ」指標を活用しながら実行時に長期記憶を維持できるようにします。オフラインでの再学習は不要です。


Titans:リアルタイムで新しいコンテキストを学習

有効な学習システムには、短期記憶と長期記憶を分離しつつ相互に関連するメモリーモジュールが必要です。人間の脳と同様に、注意機構は精密で短期的な情報保持に優れていますが、Titans は従来 RNN で使われる固定サイズベクトルや行列とは異なる「深層ニューラルネットワーク」(具体的にはマルチレイヤパーセプトロン)を長期記憶モジュールとして導入します。
このモジュールは表現力が高く、大量の情報を重要なコンテキストを失わずに要約できます。

主な特徴

  • アクティブラーニング – Titans は入力全体でトークン間の関係や概念的テーマを認識し保持する方法を学習します。
  • サプライズ指標 – 現在記憶している情報と新しい入力との大きな差異を検知します。
    • 低サプライズ:例)「cat」→すでに動物語が期待されている → 記憶せずスキップ。
    • 高サプライズ:例)財務報告書中のバナナ皮 → 永続保存を優先。
  • モメンタム – 一時的なサプライズと過去のサプライズを考慮し、関連情報を捕捉します。
  • 忘却(重み減衰) – 必要なくなった情報を適応的に削除するゲートで有限メモリ容量を管理します。

MIRAS:シーケンスモデリングの統一的視点

Transformer や高速線形 RNN など、シーケンスモデリングの主要ブレークスルーはすべて「高度に複雑な結合記憶モジュール」という同じものです。MIRAS は AI モデリングを「新情報と古いメモリを効率的に統合し、重要概念を失わない」ための異なる手法として捉えます。

MIRAS はシーケンスモデルを以下の4つの設計選択で定義します:

  1. メモリアーキテクチャ – 情報を保存する構造(ベクトル、行列、または深層 MLP)。
  2. 注意バイアス – モデルが優先すべきものを決める内部学習目的。
  3. 保持ゲート – メモリ正則化;忘却メカニズムを「新旧情報のバランス」を取る特定形式の正則化として再解釈します。
  4. メモリアルゴリズム – メモリ更新に用いる最適化アルゴリズム。

平均二乗誤差(MSE)パラダイムを超えて

ほぼすべての成功したシーケンスモデルは、バイアスと保持に MSE やドット積類似度を用いています。これらは外れ値に敏感で表現力が限定されます。MIRAS は最適化や統計学文献からインスパイアされた豊かな設計空間を探索する生成的枠組みを提供し、制限を超えます。

MIRAS を用いて、注意機構のない3つの具体モデルを作成しました:

  • YAAD – Huber 損失を使用して大きな誤差(外れ値)への感度を低減。
  • MONETA – より厳格な数学的ペナルティを課す一般化ノルムを探索。
  • MEMORA – メモリが確率マップとして機能し、更新を制御・バランスさせるよう強制。

実験と結果

Titans と MIRAS の各変種(YAAD, MONETA, MEMORA)を Transformer++, Mamba‑2, Gated DeltaNet などの最先端アーキテクチャと徹底的に比較しました。さらに、Titans をゲノムモデリング(DNA)や時系列予測で検証し、テキスト以外でも汎用性を示しました。

  • C4, WikiText などの標準言語モデルデータセットと HellaSwag, PIQA のゼロショット推論タスクにおいて、当社モデルは一貫して高い精度と低いパープレキシティを実現。
  • アブレーション研究では、より深いメモリアーキテクチャがパープレキシティの低減と長さ増加時のスケーリング性能向上に寄与。
  • 言語モデルおよび常識推論タスクで、Titans は同等サイズの線形 RNN や Transformer++ ベースラインを上回る。
  • 超長文(2 百万トークン以上)の文脈で事実間推論が必要な BABILong ベンチマークでは、GPT‑4 を含むすべてのベースラインを上回り、パラメータ数も格段に少ない。

結論

TitansMIRAS の導入はシーケンスモデリングにおける重要な進展です。
深層ニューラルネットワークを記憶モジュールとして採用し、データが流れるにつれてメモリ化することで固定サイズの再帰状態の制約を克服します。MIRAS はオンライン最適化、結合記憶、およびアーキテクチャ設計間のつながりを明らかにし、強力な理論的統一を提供します。
標準 Euclidean パラダイムを超えることで、RNN の効率と長期コンテキストで必要な表現力を兼ね備えた次世代シーケンスモデルへの道が開かれます。

同じ日のほかのニュース

一覧に戻る →

2025/12/08 2:18

I failed to recreate the 1996 Space Jam website with Claude

## Japanese Translation: ## 要約 著者は、Claude AI を使って 1996 年の Warner Bros の「Space Jam」ランディングページをスクリーンショットとアセットフォルダから再構築しようとしました。元のサイトは 200 KB 未満の単一 HTML ファイルで、絶対位置決め、テーブルレイアウト、およびタイル状の星空 GIF 背景に依存しています。 **プロセスと所見** 1. **初期試行:** Claude は概算レイアウトを生成しましたが、惑星軌道を誤った位置に配置しました。軌道パターンは認識できたものの、それを再現することには失敗しました。 2. **構造化プロンプト:** 著者は Claude に「知覚分析」「空間解釈」「再構築計画」の各セクションで理由を説明させ、正確なピクセル座標を要求しましたが、Claude はそれらを提供できませんでした。 3. **カスタムツール:** 精度向上のために 50 px → 5 px のグリッドオーバーレイ、ラベル付き座標参照点、色差比較、スクリーンショットサイドバイサイドビューア、およびスクリーンショットを 6 区域に分割するスクリプトを構築しました。 4. **結果:** Claude の調整は目標から 5–10 px 内に留まりましたが、正しい軌道半径(約 350–400 px)には決して収束しませんでした。内部レイアウトが生成されると、その後のフィードバックは元のスクリーンショットではなく、この誤ったモデルに基づいて行われました。 5. **トークナイズ仮説:** 著者は Claude が 16×16 パッチで画像をトークナイズしているため、細かい視覚的粒度が欠如し、セマンティック理解はあるもののピクセル精度が低いと考えました。 6. **ズームインテスト:** 200 % に拡大したスクリーンショットを提供して、大きなパッチで解像度が向上するか確認しましたが、Claude は依然として比例スケーリング指示に従いませんでした。 **結論** このタスクは未解決のままです。実験は Claude の空間推論限界をベンチマークとし、ピクセル単位で正確な画像再構築におけるモデルの現在の制約を示しています。

2025/12/08 7:18

How I block all online ads

## Japanese Translation: > **概要:** > 著者は、ウェブブラウザとモバイルアプリの両方で広告を排除するために長期的かつ多層的なアプローチを説明しています。彼は **Firefox + uBlock Origin** と最小限のフィルタリスト(組み込みのuBlockフィルタ、EasyList、AdGuard – Ads)と「広告でない不快要素」のためのカスタム非広告フィルタを使用します。 > DNS フィルタリングには **Pi‑hole(または AdGuard Home)** を Docker 上で $5 の DigitalOcean ドロップレットに稼働させ、WireGuard VPN の DNS サーバとして設定しています。トラフィックは **クラウドベースの VPN**(DigitalOcean、Hetzner、Azure、Google Cloud、または AWS)を経由し、プラットフォームが公的クラウド IP を検知して広告配信を減らします。 > この設定では **Cloudflare のキャプチャや HTTP エラー** が発生する場合があるため、著者は該当サイトで VPN を無効化しています。また、**Consent‑O‑Matic**(クッキーポップアップ)、**Buster**(キャプチャ)、**SponsorBlock**(動画広告)などのブラウザ拡張機能を推奨します。iOS では **Background App Refresh** をオフにするとデータ収集が減少し、Android では **ReVanced がアプリをパッチできますが、セキュリティリスクがあります** と指摘しています。 > 著者はこの統合戦略を 3 年以上使用しており、現在ほとんど広告を見ることはありません。プラットフォーム別の効果は異なります:YouTube は uBlock Origin + VPN(1週間〜1か月)が必要;Instagram は uBlock Origin のみで十分;Twitch は主に VPN に依存し、数日で効果が現れます;TikTok は両方のツールを使用しますが、数時間だけです。**AdMob** を利用するアプリも DNS ブロックの恩恵を受けます。 > 広告配信ネットワークは数日から数週間でパターンを観察し調整する可能性があるため、継続的な監視が必要です。著者は **Firebog** をブロックリストの良い情報源として引用し、正当なサイトを壊さないように許可リスト(allowlist)を維持する重要性を強調しています。

2025/12/07 23:37

Dollar-stores overcharge cash-strapped customers while promising low prices

## Japanese Translation: ドルジェネラルとファミリードラーは、棚に貼られたタグの価格よりも高い価格で顧客を頻繁に請求し、低所得層の買い物客に不釣り合いな過剰課金が広く発生しています。州検査と独立調査では、一部店舗でエラー率が88%に達するケースや、両チェーン全体で価格設定失敗が一貫して報告されています。 主な例としては、ノースカロライナ州ウィンザーのファミリードラーで23%のスキャンアイテムが過剰請求(同店の4回連続失敗)、オハイオ州ハミルトンのドルジェネラルで76%のエラー率(2022年10月)、ニュージャージー州バウンドブルックのファミリードラーで68%の不一致(2023年2月)があります。2022年1月以降、ドルジェネラルは4,300件以上、ファミリードラーは2,100件以上の価格失敗事例を記録しています。 アリゾナ州(60万ドル)、コロラド州(40万ドル)、ニュージャージー州・バーモント州・ウィスコンシン州・オハイオ州(最大100万ドル)など複数の州がチェーンと訴訟を和解し、連邦および州の司法長官は追加訴訟を提起しています。株主訴訟では、経営陣がシステム的問題を認識していたと主張されています。ニュージャージー州の連邦裁判所は、モバイルアプリ利用に関連する仲裁条項を理由にドルジェネラルに対する集団訴訟を停止し、消費者の救済手段を制限しました。 規制当局は現在の1検査あたり5,000ドル上限を超えるより厳格な執行や高い罰則を課すことができ、さらに州が調査を進めるにつれて追加の和解が生じる可能性があります。影響としては顧客信頼の低下、チェーンへの潜在的財務損失、評判へのダメージ、およびドルストア業界全体での価格設定と人員管理の強化への動きが挙げられます。