
2026/06/03 1:13
RAG 用の画像インデックス方法
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Kapa は、数千万の画像(スクリーンショット、図面、設計図など)を含むナレッジベースを効率的に扱う「1 回だけ記述する」Retrieval-Augmented Generation (RAG) パイプラインを導入することで、AI アシスタントを変革しています。このアプローチは、従来のクエリ時マルチモーダルシステムの重要な制約に対処します:大幅なコスト増(GPT で 27%、Claude で 51%)、厳格なペイロード制限(Claude では 30 MB、OpenAI では 50 MB など)、および標準的な埋め込み手法が配線図や仕様表などの細かい技術的詳細を捉えられないこと。
インデックス化フェーズでは、コスト効率の高いビジョン・言語モデルによってキャプションが生成され、装飾的な画像と「負荷を担う」画像(例えば、色マトリックス表や耐火性表など)が区別されます。キャプションの質はモデルのサイズではなく、周囲のテキスト文脈によって駆動されます。GPT 5.4 mini が生成するキャプションは、4 倍のコストがかかるモデルとほぼ見分けがつかないレベルです。システムはこれらのキャプションをインライン Alt テキストではなく別々のチャンクとして保存し、クエリあたりのコストを低減(Claude では 6%、GPT のインライン方式と比較)するとともに、画像の取得を必要な場合に限り行うようにしています。生産環境でのフィルタリングでは、ヒューリスティックとマルチモーダル埋め込みを用いたゼロショットクラシファイヤーを組み合わせてロゴやアバターなどの不要な画像を除去し、明確なケースにおいて約 96.8% の精度を達成し、残りのコープスを約 13% 削減しています。
GPT 5.1 と Claude 4.6 Sonnet によるエンドツーエンドテストでは、これらの画像を引用した回答の精度がベースラインの 0% から 10%–64% に向上し、統計的に有意な改善(McNemar テスト、p < 0.05)と、レイテンシ増加は 1 秒未満が確認されました。画像は正しく配置される確率は 94%–99% です。「1 回だけ記述する」手法は、テキスト単独の取得と比較してクエリあたりの過頭部を 1%–6% に抑えつつ、GPT 5.4 mini などの小規模モデルであっても高い性能を発揮します。現在、ハードウェア、半導体、開発者ツール顧客向けのプレビュー版として展開中であり、このソリューションは効率的で高精度かつ安価な画像ベースの AI アシスタンスのための新たな基準を設定しています。
本文
画像を活用する AI アシスタントの構築:インデックス作成時に一度記述してコストを最適化する
Kapa では、技術文書からの質問に答える AI アシスタントを構築しています。当社の知識ベースには、スクリーンショットやアーキテクチャ図、回路図など何百万もの画像が含まれています。この大規模な画像データを RAG(検索拡張生成)パイプライン内で効果的に活用する方法を研究し、以下のアプローチでコスト効率と回答品質の両立を実現しました。
1. イントロダクション:なぜ画像が必要か
端的に言えば、クエリ実行時に画像モデルを使いません。代わりに、各画像をインデックス作成時に一度だけ安価な視覚モデルで記述(キャプション化)し、その結果をテキストとして保存しています。
- コスト効率: インデックス作成は一回限りのコストです。以降のクエリあたりのオーバーヘッドは、テキストのみを使用する場合に比べて 1% から 6% に抑えられています。
- 回答品質: 統計的に有意なほど向上しました。単なる「正しい回答」だけでなく、「スクリーンショットが表示されている」ということで、ユーザーは設定を探す手間をかけずに即座に行動を起こせます。
2. 技術文書における画像の役割
数千件の顧客質問を精査した結果、画像が以下の 2 つのカテゴリに分けられ、どちらも効果的であると確認しました。
(1) 大部分は装飾的(Illustrative)
- テキストの内容を図形により明確に示します。
- 例: 「設定アイコンをクリックしてください」という指示と、そのアイコンの位置を示すスクリーンショット。
- 画像自体は事実を記述していませんが、実行しやすくするための便宜です。
(2) 一部は構造を支える(Load-bearing)
- 配線図、仕様表、認証マトリクスなど、図形そのものに価値があります。
- 例: 色可用性マトリクス(チェックマークの壁)、防火性表(評価値のグリッド)。
- 便宜のためではなく、回答そのものの源泉となります。
注意: これらの情報をテキストチャンクの傍らで検索・取得します。LLM の判定器(Judge)によるテストでも、画像コンテキストがある場合の方が統計的に有意に優れている結果となりました。
3. なぜクエリ実行時のマルチモーダルアプローチはNGか
関連するチャンクを画像認識機能を持つモデルに渡す一般的なアプローチは、以下の構造的な理由で規模拡大に適していません。
- ❌ 経済的な不合理
- 生画像を加えることで、GPT でコストが 27%、Claude で 51% 増加します。
- 多くの回答でピクセルの確認が必要ないのに、それを課すことは許されません。
- ❌ 物理的な容量制限
- 典型的な質問では平均 20〜30 枚の画像を参照し、長尾ケースでは 130 枚を超えます。
- Claude(30 MB)、OpenAI(50 MB)のペイロード制限に達してしまうため、厳格な制限が必要になり本件の目的が損なわれます。
- ❌ ドメインへの適合性不足
- CLIP スタイルのベクトル埋め込みでは、チャートや表の微細な詳細を洗い流してしまいます。
- 技術的なクエリにおいて十分でないシグナルしか得られません。
これらを回避するため、「インデックス作成時に一度記述し、検索時はテキストとして扱う」というアプローチを採用しました。
4. 実装戦略:インデックス作成時のトランスクリプション
各クエリで画像を処理する費用を支払う代わりに、インデックス作成時のみに一度支払いして画像をテキスト記述に変換します。以降、検索と生成は完全なテキストで行われます。
(1) 処理フロー
- インデックス作成時: 視覚言語モデルが各画像に対してキャプション(説明文)を作成します。
- 装飾的画像: キャプションに説明文を記述。
- 構造を支える画像: キャプションに表内の値やラベルのトランスクリプトを記述。
- 検索時: 通常のテキストチャンクと同様に、保存されたキャプションを検索・取得します。
- 生成時: モデルは生画像を見ることなく、キャプションのみを見て回答を生成し、必要に応じて元の URL を引用します。
(2) なぜ「構造を支える」ケースで成功するか
- 汎用的な抽出器でマトリクスなどを平面的テキストに変換すると構造が崩壊し、誤った回答につながります。
- インゲスチョン(取り込み)段階ですべてをトランスクリプト化することで、検索可能なテキスト化されたコンテンツとなり、回答の信頼性が保たれます。
5. 本番環境で正しく実装するための要件
数百万枚の画像を無差別に処理できません。以下の特徴的なステップを実装しました。
(1) フィルタリング
- 目的: ロゴやアバターなど、分類不可能な雑音を除去。
- 手法: ヘウリスティクス(フォーマット、サイズ、アスペクト比)で最初に処理し、残りの画像についてゼロショット分類器を使用。
- 結果:
- 明確な画像の場合:96.8% の精度を達成。
- 曖昧な画像の場合:59.8% に低下するが、これは本質的な限界として受け入れる(文脈依存の分類は後ステップで行う)。
(2) キャプション作成(モデル選定)
- 最重要要素: モデルの規模より**「surrounding テキスト(画像周辺の前後の文章)」**を与えることです。
- 文脈がない場合:「ファイルアップロードダイアログ」と漠然と表現される。
- 文脈がある場合:特定の製品・ワークフロー・ステップに基づいた有用なキャプションになる。
- コスト効率: 高価なモデルを使う必要はありません。GPT-5.4 nano などの小型モデルでも、大型モデルと遜色ない品質を得られます(明らかな性能低下を示す nano モデルを除く)。
(3) ストレージ戦略:INLINE vs SEPARATE
- 結論:
(別々のチャンクに保存)の方がコストおよび画像利用率の観点で優れています。SEPARATE - 理由:
- INLINE は、画像が関連するかどうかに関わらず、すべてのチャンクを一度送信してしまい、コストが増大します(GPT では +19%)。
- SEPARATE は、retriever が関連性があると判断した場合のみコンテキストに追加されるため、必要な時だけコストが発生します(GPT では +6%)。
6. ロードテストの結果
GPT-5.1 と Claude 4.6 Sonnet を使用した 3 つの顧客プロジェクトでの結果です。
| 指標 | テキストのみ(基準) | 画像キャプション活用時 |
|---|---|---|
| 回答で画像引用される割合 | 0% | 10% 〜 64% |
| 回答品質(LLM Judge) | - | 統計的に有意に向上 (p < 0.05) |
| クエリあたりコスト | 0% | +1% 〜 6% |
| レイテンシ | 基準 | 秒未満の増加 |
| モデルの不確実性 | - | 不変、あるいは低下 |
| インデックス作成コスト | - | 一回限り(以降無償) |
全ての実験において、画像は 94% 〜 99% の頻度で正しく配置されました。
7. まとめ
派手な「マルチモーダルモデルを継続的に使用」するアプローチとは異なり、コスト効率と品質を両立する地味だが本質的な解決策です。
- 戦略: 視覚処理を適応した場所(一回限りのインゲスチョン段階)に置く。
- メリット: 画像が保持する内容をテキスト化し、毎回ピクセルを確認するためのコストを支払う必要がありません。
- 結論: 画像は言葉を補足するか、そのまま答えを持っているかに関わらず、一度読み込むだけでパイプライン全体の動作と相性が良く、制約ではなくアーキテクチャそのものの指針となりました。
現在はプレビュー版としてロールアウト中です。