
2026/02/04 23:33
**対称性に配慮したテイラー近似で一定コスト(トークン単位)を実現する注意点**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
本論文では、コンテキスト長に関係なくトークンあたりの計算量とメモリコストを一定に保つ新しい自己注意技術を紹介しています。従来の注意機構をテイラー展開で再表現し、それを対称テンソル積チェーンに分解することで、著者らはクエリとキーを最小多項式カーネル特徴空間へ変換する単純なフィードフォワードマッピングを作成しています。この対称性の活用により、各注意ヘッドのサイズに逆比例してコストが削減されます。従来のTransformerはコンテキスト長で二次的にスケールするため、切り捨てや高価な近似を強いられますが、本手法はその制限を回避し、一定の低コストで無制限のトークン生成を可能にします。その結果、大規模モデルではレイテンシが低下し、インフラとエネルギー使用量も削減され、最終ユーザー(高速応答)と企業(安価なサーバー)の双方に利益がもたらされます。数学的アイデアはTransformer以外のニューラルアーキテクチャにも影響を与える可能性があります。
本文
概要
現在最も広く使われている人工知能(AI)モデルは、自己注意機構を採用した Transformer です。
標準形態では、自己注意の計算コストがコンテキスト長に比例して増大し、その結果、必要とされる記憶容量・演算資源・エネルギーが社会が供給できる限度を超えてしまうという問題があります。
本研究では、この課題に対処するために、自己注意を任意精度で効率的に計算し、トークンごとに一定のコストで実行できる手法を提示します。これにより、メモリ使用量や計算量を数桁単位で削減できます。
我々は、従来の自己注意表現のテイラー展開を対称的なテンソル積の鎖に分解することで式を導出しました。
その対称性を活用すると、クエリとキーを最小多項式カーネル特徴空間上の座標へ写像する前方伝播変換が得られます。
特筆すべきは、コストがヘッドサイズに逆比例して固定される点であり、これによりトークンあたりに利用できるヘッド数を大幅に増やせるというメリットがあります。
実装を行い、実験的に正確性を検証しました。
本手法は定額の低コストで無制限にトークン生成を可能にし、大規模 Transformer モデルのインフラ構築とエネルギー消費を大幅に削減します。
導入した数学的技術自体も独立して興味深いものです。