
2026/01/07 3:02
階層的自己回帰モデルによるメモリ効率の高い言語生成
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
要約:
PHOTONは、Transformerがテキストを処理する方法を再考した新しいニューラルネットワーク設計です。トークンを一つずつスキャンする(水平トークンスキャニング)代わりに、まずボトムアップエンコーダで入力を「潜在」表現の小さなセットに圧縮します。その後、軽量なトップダウンデコーダがこれらの潜在表現を再び完全なトークン詳細へ展開します。この階層的・垂直フローは、長文コンテキストデコーディングで通常遅延させるキー・バリューキャッシュトラフィック量を劇的に削減し、出力品質を犠牲にすることなく遥かに高いスループットを実現します。メモリ帯域幅の要求を低減することで、PHOTONは大規模言語モデル上でより効率的に動作し、長い入力や複数クエリを同時に処理できます。その結果、従来のTransformerと比べて速度対品質トレードオフが優れたモデルとなり、特に長文コンテキスト理解を必要とするタスクで効果的です。クラウドプロバイダーや開発者にとっては、推論コストの削減、リアルタイムアプリケーションの高速化、および業界全体で強力な言語モデルの広範な採用を意味します。
本文
概要
Transformerは水平にトークンごとにスキャンする仕組みを持ち、各生成ステップでモデルは増大し続けるトークンレベルの状態列へ注意を向けます。このアクセスパターンはプリフィル遅延を高め、長文コンテキストでのデコードがメモリに依存するようになります。なぜなら、KVキャッシュへの読み書きが算術演算よりも推論スループットを支配してしまうからです。
そこで我々は Parallel Hierarchical Operation for Top‑down Networks(PHOTON) を提案します。PHOTON はフラットなスキャンを縦方向の多解像度コンテキストアクセスに置き換えた階層的自己回帰モデルです。
PHOTON では潜在ストリームが階層構造で保持されます。
- 下位から上位へ向かうエンコーダはトークンを段階的に圧縮し、低レートのコンテキスト状態へと変換します。
- 軽量なトップダウンデコーダは細粒度のトークン表現を再構築します。
実験結果では、PHOTON は競合する Transformer ベースの言語モデルに比べてスループット―品質トレードオフで優れた性能を示し、長文コンテキストや複数クエリタスクにおいて大きな利点があります。これによりデコード時の KV キャッシュトラフィックが削減され、メモリ単位あたり最大 (10^{3}\times) のスループット向上を実現します。
提出履歴
- 送信者: Yuma Ichikawa [メールを見る]
- バージョン: v1
- 日付: 2025年12月22日(月)19:26:59 UTC(1,233 KB)