**TurboQuant：極端圧縮でAI効率を再定義**

Japanese Translation:

要約:
TurboQuant は、ゼロ精度損失を実現しながら、大規模言語モデルのキー–バリュー（KV）キャッシュを少なくとも 6 倍に縮小する新しい AI‑ベクトル圧縮アルゴリズムです。PolarQuant（ベクトルを極座標へ変換して高価な正規化を排除）と Quantized Johnson–Lindenstrauss (QJL)（各ベクトル要素を 1 ビットの符号ビットに削減）を組み合わせています。Gemma と Mistral モデルで LongBench、Needle in a Haystack、ZeroSCROLLS、RULER、および L‑Eval に対して実験した結果、最適なドット積歪みとリコールを達成しつつ KV メモリを最小化できることが示されました。TurboQuant はトレーニングやファインチューニングなしで KV キャッシュの 3‑ビット圧縮を可能にし、NVIDIA H100 GPU 上で未量子化 32‑bit キーと比べて最大 8 倍の速度向上を実現し、インデックス構築を高速化する最小限のランタイムオーバーヘッドを提供します。高次元ベクトル検索においては、1@k リコール率で PQ や RabbiQ を凌駕し、データ不依存でほぼ最適な歪み率を達成しています。チームは ICLR 2026 で TurboQuant を発表する予定であり、PolarQuant は AISTATS 2026 で紹介されます。協力者には Google、DeepMind、KAIST、NYU およびその他の機関が含まれ、この手法は Gemini や Google のインフラストラクチャなど大規模な意味検索・ベクトル検索システムに適用可能です。

ベクトルは、AI モデルが情報を理解し処理するための基本的な手段です。小さなベクトルはグラフ上の一点など単純な属性を表し、高次元ベクトルは画像の特徴語の意味やデータセットの特性といった複雑な情報を捉えます。高次元ベクトルは非常に強力ですが、膨大なメモリを消費するため、頻繁に使用される情報を簡易ラベルで高速に格納し、コンピュータが遅い大量データベースを検索せずに即座に取り出せる「デジタルチートシート」であるキー–バリューヒープにボトルネックをもたらします。

ベクトル量子化（Vector Quantization） は、従来型の強力なデータ圧縮手法で、高次元ベクトルのサイズを削減します。この最適化は AI の 2 つの重要課題に対応します。まず、ベクトル検索（大規模 AI と検索エンジンを駆動する高速技術）を向上させることで類似性探索を高速化し、次にキー–バリューヒープのボトルネックを解消し、キー・バリュー対のサイズを減らすことでメモリコストを低減します。しかし従来のベクトル量子化は「メモリオーバヘッド」を伴うことが多く、多くの場合各小ブロックに対して完全精度で量子化定数を計算・保存する必要があります。このオーバヘッドは 1〜2 ビット/数値の追加負荷となり、ベクトル量子化の目的を部分的に打ち消します。

本日私たちは TurboQuant（ICLR 2026 にて発表予定）を紹介します。TurboQuant は、ベクトル量子化におけるメモリオーバヘッド課題を最適に解決する圧縮アルゴリズムです。また TurboQuant が実現している QJL（Quantized Johnson–Lindenstrauss）と PolarQuant（AISTATS 2026 にて発表予定）も併せて紹介します。テストでは、3 つの技術すべてが AI モデル性能を犠牲にせずキー–バリュー・ボトルネックを軽減する可能性を示しました。これは検索や AI を含む圧縮依存ユースケース全般に深い影響を与える可能性があります。

TurboQuant の仕組み

TurboQuant は、モデルサイズを大幅に削減しつつ精度損失ゼロで実現する圧縮手法です。これによりキー–バリュー（KV）キャッシュの圧縮とベクトル検索の両方をサポートします。主なプロセスは次の 2 ステップです。

高品質圧縮（PolarQuant メソッド）
TurboQuant はまずデータベクトルをランダムに回転させ、データ構造を単純化します。その後各部分に標準的な高品質量子器を適用します。最初の段階では圧縮力（ビット数）の大半を使い、元のベクトルの主要概念と強度を捉えます。
隠れた誤差の除去
TurboQuant は残りのわずかな圧縮力（1 ビット）で QJL アルゴリズムを適用し、最初の段階で残った微小な誤差を訂正します。QJL 段階は数学的エラーチェッカーとして機能しバイアスを除去してより正確な注意スコア（attention score）を得ます。

QJL：ゼロオーバヘッド・1ビットのトリック

QJL は Johnson–Lindenstrauss 変換を用いて複雑で高次元のデータを縮小し、ポイント間の距離と関係性を保持します。結果として各ベクトル要素は +1 または –1 の 1 ビット（符号ビット）に圧縮されます。このアルゴリズムはメモリオーバヘッドゼロで高速な略式表現を作り出します。精度維持のため、QJL は高精度クエリと低精度化簡データを戦略的にバランスさせる特殊推定子を使用し、モデルが注意スコアを正確に算出できるようにします。

PolarQuant：圧縮の新しい「角度」視点

PolarQuant はメモリオーバヘッド問題を別のアプローチで解決します。標準的な直交座標（X, Y, Z）ではなく、ベクトルを極座標に変換します。これにより得られる 2 つの情報は：

半径（Radius） – コアデータの強度
角度（Angle） – データの方向や意味

角度パターンは既知で非常に集中しているため、PolarQuant は事前に決まった円形グリッド上にデータをマッピングし、境界が既知であることから高価なデータ正規化を不要にします。これにより従来手法が負担するメモリオーバヘッドを排除します。

実験と結果

私たちは LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L‑Eval などの長文コンテキストベンチマークで、Gemma と Mistral のオープンソース LLM を用いて 3 つのアルゴリズムを徹底的に評価しました。実験データは、TurboQuant がドット積歪みとリコールの点で最適なスコアリング性能を達成しながら KV メモリフットプリントを最小化できることを示しています。

長文コンテキスト「needle‑in‑a‑haystack」タスクでは、TurboQuant がすべてのベンチマークで完璧な下流結果を達成しつつキー–バリュー・メモリサイズを 6 倍以上削減できることが確認されました。PolarQuant も同様にほぼロスレスです。TurboQuant は KV キャッシュを単三ビットで量子化でき、訓練やファインチューニングなしでモデル精度を損なわず、オリジナル LLM より高速な実行時間を実現します。ランタイムオーバヘッドはほぼ無視でき、4 ビット TurboQuant が H100 GPU アクセラレータ上で 32 ビット未量子化キーより最大 8 倍の性能向上を示すプロットが確認できます。

高次元ベクトル検索においても、TurboQuant は PQ と RabbiQ を含む最先端手法を 1@k リコール比で一貫して上回ります。データ非依存的に近似最適の歪み率を達成しながら、3 ビットシステムの効率性で運用できます。

今後の展望

TurboQuant、QJL、PolarQuant は実務向けエンジニアリングソリューション以上のものです。理論的根拠が裏付けるアルゴリズム的貢献として、理論下限に近い性能を発揮し、大規模で重要なシステムに対して堅牢かつ信頼性があります。主な応用は Gemini のようなモデルでのキー–バリューキャッシュボトルネック解消ですが、効率的なオンラインベクトル量子化はキーワードマッチではなく意味理解を重視する現代検索にも拡張可能です。TurboQuant のような技術により、大規模ベクトルインデックスの構築・クエリが極小メモリ、ほぼゼロ前処理時間、高度精度で実行できるため、スケーラブルな意味検索を実現できます。

謝辞

本研究は Praneeth Kacham（Google）、Majid Hadian（Google DeepMind）、Insu Han（KAIST）、Majid Daliri（NYU）、Lars Gottesbüren（Google）および Rajesh Jayaram（Google）の協力のもとで進められました。