TIPSv2：補強されたパッチ - テキスト対応によるビジョン・言語事前学習の進展

Japanese Translation:

CVPR 2026 に発表された TIPSv2 は、高度な蒸留技術を活用して大型モデルを凌駕する画期的な画像・テキストエンコーダーを導入します。その核心的な革新点は、パッチとテキストの整合性を iBOT++ を通じて向上させることで、小規模な「学生」ネットワークが多数のパラメータを持つ「教師」モデルを上回るゼロショットセグメンテーションを実現し、ADE150 において +14.1 の mIoU 向上（3.5 → 17.6）を達成した点にあります。さらなる進展として、「Head-only EMA」があり、これは安定性を保ちながら指数移動平均（Exponential Moving Average）をプロジェクターヘッドのみへの適用によりトレーニングパラメータを 42% 削減します。また、「Multi-Granularity Captions」も導入され、.alt-text、PaliGemma、Gemini Flash の説明を組み合わせて複雑なシーンに対する理解を強化します。その結果、TIPSv2 はゼロショットセグメンテーションベンチマークの全部で 4 つにおいて最上位（SotA）の結果を獲得し、7 つのグローバル画像・テキスト評価のうち 5 つで最良または次点の評価、9 つの画像単独タスク（セグメンテーション、深度、法線を含む）のうち 7 つで最良または次点の評価を達成しました。さらに、パラメータが 6 倍多く、トレーニング用画像が 15 倍多い教師モデルを使用した DINOv3（ViT-L）と比較しても、共有された評価の 6 つのうち 4 つにおいて TIPSv2 が勝利しました。PCA フィーチャーマップの可視化からは、先行モデルに比べて滑らかで明確に区画されたオブジェクトおよびより強いセマンティックな焦点が確認されたとともに

Google DeepMind
同等の貢献：現在、以下の組織で活動中です。1xAI, 2Epsilon Health, 3ソウル大学, 4Google

CVPR 2026

概要
TIPSv2 は、基礎モデルである画像・テキストエンコーダーファミリー「TIPS」の次世代版であり、多数マルチモーダルおよびビジョンタスクで卓越した性能を発揮することを可能にします。本研究ではまず驚くべき発見——即ち、蒸留（distillation）を用いることで標準的な事前学習（pretraining）よりも優れたパッチとテキストのアライメントを実現し、その結果、大幅に軽量な学生モデルがより巨大な教師モデルをこの能力において大きく凌駕すること——を検証しました。さらに、この現象を慎重に調査した結果、ビジョン・ランゲージエンコーダーの性能を大幅に向上させる改良された事前学習手法を確立しました。事前学習プロセスには以下の 3 つの主要な変更点が導入されています（下の図も参照のこと）：

iBOT++：パッチレベルの自己教師あり損失を全てのトークン（マスキング済みおよび可視領域を含む）に拡張し、より強力な密接なアライメントを実現します。
Head-only EMA：トレーニングコストを削減しながらも性能を維持するため、全モデルではなくプロジェクターヘッドのみに対して指数加重移動平均（EMA）を適用します。
Multi-Granularity Captions：PaliGemma と Gemini から得られた説明文を用いて、より豊かなテキストによる監督信号を提供します。

これらのコンポーネントを組み合わせることで、TIPSv2 は 9 つのタスクおよび 20 のデータセットにおいて強力な性能を発揮し、近年提案されたビジョンエンコーダーモデルと同等かそれ以上の結果を得ております。特に、ゼロショットセグメンテーション分野では顕著な性能向上を記録しました。

TIPSv2 の事前学習概要
TIPSv2 は以下の 3 つの事前学習に関する改善を導入します：

iBOT++（改良された MIM ロス）
Head-only EMA（メモリ効率の高い自己教師あり損失）
Multi-granularity captions（より豊かなテキスト監督）

可視化

PCA 特徴マップ
TIPSv2 は、従来のビジョン・ランゲージモデル（例：TIPS および SigLIP2）と比較して、物体の輪郭が明確に区別された滑らかな特徴マップを生成します。DINOv3 も同様に滑らかな特徴マップを示しますが、TIPSv2 はより強いセマンティックな焦点を持っており、物体境界はさらに精密に検出され、領域内には細かいセマンティック詳細が見られます。ここでは、DINOv3 を除く複数のビジョンエンコーダーの ViT-g モデルを比較し、DINOv3 については 6 倍大きい ViT-7B と比較します。下からの任意の画像を選択することで、パッチ埋め込みの PCA コンプーネントを探索できます。

[画像比較]

TIPS
SigLIP2
DINOv2
DINOv3（7B）
TIPSv2（本研究提案）

TIPSv2 の PCA 特徴は、より微細なセマンティック分離を示します：バックパック、人、ハイキングポールなどが明確に区別されています。

特徴探索器
ご自身の画像をアップロードし、TIPSv2 のパッチ埋め込みの特徴マップ、あるいはゼロショットセグメンテーション、深度推定、法線推定などの応用を探索してください。HuggingFace でも利用可能です。

手法
TIPSv2 は、事前学習と蒸留の違いを検証し、標準的なビジョン・ランゲージモデルに対して 3 つのターゲット指向的な事前学習改善——iBOT++、Head-only EMA、Multi-Granularity Text Captions——を導入することを動機としています。

事前学習と蒸留をつなぐ
我々は、事前学習と蒸留の間には驚くべきギャップが存在することを明らかにしました：より小さな ViT-L モデルが、より大きな ViT-g TIPS 教師モデルから蒸留された場合、ゼロショットセグメンテーションタスクにおいてその教師モデルを大幅に凌駕し、他の全ての評価タスクで観察されていた傾向を逆転させました。SigLIP2 についても同様の傾向が確認されています。本研究では、マスキング比率、エンコーダの初期化、凍結・学習パラメータ、監督信号など、事前学習と蒸留の違いを詳細にアブレーションしました。その調査の結果、蒸留と事前学習の間におけるパッチ・テキストアライメントの違いを引き起こす主要な要因は「可視トークンに対する監督の有無」であることが明らかになりました。

蒸留 vs 標準的な事前学習：驚くべき発見
TIPS ViT-g で事前学習された教師モデルと、その ViT-g から蒸留された ViT-L の学生モデルを用いたゼロショットセグメンテーションの結果。学生モデルは、パッチ・テキストアライメントにおいて教師モデルを大幅に凌駕します。

iBOT++：改良されたマスキッド・イメージモデリング
蒸留と標準的な事前学習のギャップに関する調査を通じて、我々は可視パッチに対する監督が鍵となる差別化要因であることを発見しました。この改善を蒸留から事前学習へ拡張するために、以下のシンプルな拡張手法「iBOT++」を提案します。従来の iBOT ではマスキングされたパッチトークンのみを監督対象とし、可視トークンの表現には制約がかかっていませんでしたが、iBOT++ は自己教師あり損失（patch-level self-distillation loss）をすべてのパッチ（マスキング済みおよび可視領域）に適用することで、ADE150 データセットにおけるゼロショットセグメンテーションで mIoU が +14.1 ポイント向上しました。

iBOT++ は、パッチレベルの損失を全てのパッチ（マスキング済み・可視領域含む）に適用し、ゼロショットセグメンテーションの結果から示されるように、パッチ・テキストアライメントを劇的に改善します。

Head-only EMA
対称的ロス関数が既にビジョンエンコーダーの安定化をもたらすため、全モデルではなくプロジェクターヘッドのみに対して指数加重移動平均（EMA）を適用します。これにより、トレーニングパラメータ数を 42% 削減しつつも、同等の性能を維持できます。

マルチ粒度テキストキャプション
alt-text および PaliGemma のキャプションに加えて、より豊かな Gemini Flash のキャプションを追加し、訓練中にそれらをランダムに交互に使用することで、粗略なキーワード依存（shortcutting）を防ぎます。この手法により、密接型およびグローバル型の画像・テキスト両方の性能が向上します。

アブレーション研究
TIPS ベースラインから各コンポーネントを累積的に追加したアブレーション実験を行いました。iBOT++ 単独でも最大の単一改善をもたらしました：ADE150 データセットでのゼロショットセグメンテーションで mIoU が +14.1 ポイント向上（3.5 → 17.6）。これは、パッチレベルの損失を可視トークンに拡張することが、密接なパッチ・テキストアライメントの主要な推進力であることを確認しました。

アブレーション研究結果：TIPS ベースラインからの累積的追加、各ステップで ViT-g モデルに対して 1 つの TIPSv2 コンポーネントを追加した実験。

結果
我々は TIPSv2 を多様な評価カテゴリで検証し、密接型画像・テキスト（ゼロショットセグメンテーション）、グローバル型画像・テキスト（分類および検索）、画像単独タスク（セグメンテーション、深度、法線、検索、分類）を網羅的に評価しました。下のタブを選択して詳細な結果テーブルをご覧ください。

密接型画像・テキスト評価
TIPSv2 は、すべての 4 つのゼロショットセグメンテーションベンチマークで最先端（SOTA）性能を達成し、より複雑な TCL 評価プロトコルを採用している SILC や DINOv2 を凌駕しました。

グローバル型画像・テキスト評価
7 つのグローバル評価のうち、5 つで最良または第 2 の成績を記録しました。特に noteworthy な点は、パラメータ数が 56% も多く、トレーニングペアが 47 倍多い PE（PE-core G/14）に対し、TIPSv2-g は共有評価のうち 3 つで上回る結果を残したことです。

画像単独タスク評価
9 つの画像単独評価のうち、7 つで最良または第 2 の成績を記録しました。

DINOv3 と TIPSv2 の比較
両ファミリー間で共通最大のサイズ（ViT-L）における性能を比較しました。DINOv3 の教師モデルがパラメータ数を 6 倍、データ量を 15 倍に使用しているにもかかわらず、TIPSv2 はゼロショットセグメンテーションを含む 6 つの共有評価のうち 4 つで勝利し（いずれも TCL スライドウィンドウプロトコルを使用）、優位性を示しました。

謝辞
Connor Schenck および Gabriele Berton に、有益な議論と提案を賜り厚く感謝いたします。また、ウェブサイトテンプレートを提供してくれた D4RT プロジェクトにも gratitude を申し上げます。

引用方法

@inproceedings{cao2026tipsv2,
  title     = {{TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment}},
  author    = {Cao, Bingyi and Chen, Koert and Maninis, Kevis-Kokitsi and Chen, Kaifeng and Karpur, Arjun and Xia, Ye and Dua, Sahil and Dabral, Tanmaya and Han, Guangxing and Han, Bohyung and Ainslie, Joshua and Bewley, Alex and Jacob, Mithun and Wagner, Rene and Ramos, Washington and Choromanski, Krzysztof and Seyedhosseini, Mojtaba and Zhou, Howard and Araujo, Andre},
  booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
  year      = {2026}
}

TIPSv2：補強されたパッチ - テキスト対応によるビジョン・言語事前学習の進展

Japanese Translation:

同じ日のほかのニュース