RAG 用の画像インデックス方法

2026/06/03 1:13

RAG 用の画像インデックス方法

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Kapa は、数千万の画像(スクリーンショット、図面、設計図など)を含むナレッジベースを効率的に扱う「1 回だけ記述する」Retrieval-Augmented Generation (RAG) パイプラインを導入することで、AI アシスタントを変革しています。このアプローチは、従来のクエリ時マルチモーダルシステムの重要な制約に対処します:大幅なコスト増(GPT で 27%、Claude で 51%)、厳格なペイロード制限(Claude では 30 MB、OpenAI では 50 MB など)、および標準的な埋め込み手法が配線図や仕様表などの細かい技術的詳細を捉えられないこと。

インデックス化フェーズでは、コスト効率の高いビジョン・言語モデルによってキャプションが生成され、装飾的な画像と「負荷を担う」画像(例えば、色マトリックス表や耐火性表など)が区別されます。キャプションの質はモデルのサイズではなく、周囲のテキスト文脈によって駆動されます。GPT 5.4 mini が生成するキャプションは、4 倍のコストがかかるモデルとほぼ見分けがつかないレベルです。システムはこれらのキャプションをインライン Alt テキストではなく別々のチャンクとして保存し、クエリあたりのコストを低減(Claude では 6%、GPT のインライン方式と比較)するとともに、画像の取得を必要な場合に限り行うようにしています。生産環境でのフィルタリングでは、ヒューリスティックとマルチモーダル埋め込みを用いたゼロショットクラシファイヤーを組み合わせてロゴやアバターなどの不要な画像を除去し、明確なケースにおいて約 96.8% の精度を達成し、残りのコープスを約 13% 削減しています。

GPT 5.1 と Claude 4.6 Sonnet によるエンドツーエンドテストでは、これらの画像を引用した回答の精度がベースラインの 0% から 10%–64% に向上し、統計的に有意な改善(McNemar テスト、p < 0.05)と、レイテンシ増加は 1 秒未満が確認されました。画像は正しく配置される確率は 94%–99% です。「1 回だけ記述する」手法は、テキスト単独の取得と比較してクエリあたりの過頭部を 1%–6% に抑えつつ、GPT 5.4 mini などの小規模モデルであっても高い性能を発揮します。現在、ハードウェア、半導体、開発者ツール顧客向けのプレビュー版として展開中であり、このソリューションは効率的で高精度かつ安価な画像ベースの AI アシスタンスのための新たな基準を設定しています。

本文

画像を活用する AI アシスタントの構築:インデックス作成時に一度記述してコストを最適化する

Kapa では、技術文書からの質問に答える AI アシスタントを構築しています。当社の知識ベースには、スクリーンショットやアーキテクチャ図、回路図など何百万もの画像が含まれています。この大規模な画像データを RAG(検索拡張生成)パイプライン内で効果的に活用する方法を研究し、以下のアプローチでコスト効率と回答品質の両立を実現しました。

1. イントロダクション:なぜ画像が必要か

端的に言えば、クエリ実行時に画像モデルを使いません。代わりに、各画像をインデックス作成時に一度だけ安価な視覚モデルで記述(キャプション化)し、その結果をテキストとして保存しています。

  • コスト効率: インデックス作成は一回限りのコストです。以降のクエリあたりのオーバーヘッドは、テキストのみを使用する場合に比べて 1% から 6% に抑えられています。
  • 回答品質: 統計的に有意なほど向上しました。単なる「正しい回答」だけでなく、「スクリーンショットが表示されている」ということで、ユーザーは設定を探す手間をかけずに即座に行動を起こせます。

2. 技術文書における画像の役割

数千件の顧客質問を精査した結果、画像が以下の 2 つのカテゴリに分けられ、どちらも効果的であると確認しました。

(1) 大部分は装飾的(Illustrative)

  • テキストの内容を図形により明確に示します。
  • : 「設定アイコンをクリックしてください」という指示と、そのアイコンの位置を示すスクリーンショット。
  • 画像自体は事実を記述していませんが、実行しやすくするための便宜です。

(2) 一部は構造を支える(Load-bearing)

  • 配線図、仕様表、認証マトリクスなど、図形そのものに価値があります。
  • : 色可用性マトリクス(チェックマークの壁)、防火性表(評価値のグリッド)。
  • 便宜のためではなく、回答そのものの源泉となります。

注意: これらの情報をテキストチャンクの傍らで検索・取得します。LLM の判定器(Judge)によるテストでも、画像コンテキストがある場合の方が統計的に有意に優れている結果となりました。

3. なぜクエリ実行時のマルチモーダルアプローチはNGか

関連するチャンクを画像認識機能を持つモデルに渡す一般的なアプローチは、以下の構造的な理由で規模拡大に適していません。

  • ❌ 経済的な不合理
    • 生画像を加えることで、GPT でコストが 27%、Claude で 51% 増加します。
    • 多くの回答でピクセルの確認が必要ないのに、それを課すことは許されません。
  • ❌ 物理的な容量制限
    • 典型的な質問では平均 20〜30 枚の画像を参照し、長尾ケースでは 130 枚を超えます。
    • Claude(30 MB)、OpenAI(50 MB)のペイロード制限に達してしまうため、厳格な制限が必要になり本件の目的が損なわれます。
  • ❌ ドメインへの適合性不足
    • CLIP スタイルのベクトル埋め込みでは、チャートや表の微細な詳細を洗い流してしまいます。
    • 技術的なクエリにおいて十分でないシグナルしか得られません。

これらを回避するため、「インデックス作成時に一度記述し、検索時はテキストとして扱う」というアプローチを採用しました。

4. 実装戦略:インデックス作成時のトランスクリプション

各クエリで画像を処理する費用を支払う代わりに、インデックス作成時のみに一度支払いして画像をテキスト記述に変換します。以降、検索と生成は完全なテキストで行われます。

(1) 処理フロー

  • インデックス作成時: 視覚言語モデルが各画像に対してキャプション(説明文)を作成します。
    • 装飾的画像: キャプションに説明文を記述。
    • 構造を支える画像: キャプションに表内の値やラベルのトランスクリプトを記述。
  • 検索時: 通常のテキストチャンクと同様に、保存されたキャプションを検索・取得します。
  • 生成時: モデルは生画像を見ることなく、キャプションのみを見て回答を生成し、必要に応じて元の URL を引用します。

(2) なぜ「構造を支える」ケースで成功するか

  • 汎用的な抽出器でマトリクスなどを平面的テキストに変換すると構造が崩壊し、誤った回答につながります。
  • インゲスチョン(取り込み)段階ですべてをトランスクリプト化することで、検索可能なテキスト化されたコンテンツとなり、回答の信頼性が保たれます。

5. 本番環境で正しく実装するための要件

数百万枚の画像を無差別に処理できません。以下の特徴的なステップを実装しました。

(1) フィルタリング

  • 目的: ロゴやアバターなど、分類不可能な雑音を除去。
  • 手法: ヘウリスティクス(フォーマット、サイズ、アスペクト比)で最初に処理し、残りの画像についてゼロショット分類器を使用。
  • 結果:
    • 明確な画像の場合:96.8% の精度を達成。
    • 曖昧な画像の場合:59.8% に低下するが、これは本質的な限界として受け入れる(文脈依存の分類は後ステップで行う)。

(2) キャプション作成(モデル選定)

  • 最重要要素: モデルの規模より**「surrounding テキスト(画像周辺の前後の文章)」**を与えることです。
    • 文脈がない場合:「ファイルアップロードダイアログ」と漠然と表現される。
    • 文脈がある場合:特定の製品・ワークフロー・ステップに基づいた有用なキャプションになる。
  • コスト効率: 高価なモデルを使う必要はありません。GPT-5.4 nano などの小型モデルでも、大型モデルと遜色ない品質を得られます(明らかな性能低下を示す nano モデルを除く)。

(3) ストレージ戦略:INLINE vs SEPARATE

  • 結論:
    SEPARATE
    (別々のチャンクに保存)の方がコストおよび画像利用率の観点で優れています。
  • 理由:
    • INLINE は、画像が関連するかどうかに関わらず、すべてのチャンクを一度送信してしまい、コストが増大します(GPT では +19%)。
    • SEPARATE は、retriever が関連性があると判断した場合のみコンテキストに追加されるため、必要な時だけコストが発生します(GPT では +6%)。

6. ロードテストの結果

GPT-5.1 と Claude 4.6 Sonnet を使用した 3 つの顧客プロジェクトでの結果です。

指標テキストのみ(基準)画像キャプション活用時
回答で画像引用される割合0%10% 〜 64%
回答品質(LLM Judge)-統計的に有意に向上 (p < 0.05)
クエリあたりコスト0%+1% 〜 6%
レイテンシ基準秒未満の増加
モデルの不確実性-不変、あるいは低下
インデックス作成コスト-一回限り(以降無償)

全ての実験において、画像は 94% 〜 99% の頻度で正しく配置されました。

7. まとめ

派手な「マルチモーダルモデルを継続的に使用」するアプローチとは異なり、コスト効率と品質を両立する地味だが本質的な解決策です。

  • 戦略: 視覚処理を適応した場所(一回限りのインゲスチョン段階)に置く。
  • メリット: 画像が保持する内容をテキスト化し、毎回ピクセルを確認するためのコストを支払う必要がありません。
  • 結論: 画像は言葉を補足するか、そのまま答えを持っているかに関わらず、一度読み込むだけでパイプライン全体の動作と相性が良く、制約ではなくアーキテクチャそのものの指針となりました。

現在はプレビュー版としてロールアウト中です。

同じ日のほかのニュース

一覧に戻る →

2026/06/03 3:47

MAI コード 1 のフラッシュ処理

## Japanese Translation: 以下の内容は、Key Points List に含まれていた欠落していた具体的な指標およびデータポイントを統合しつつ、明瞭さを維持した改良されたバージョンです。 **Improved Summary:** MAI-Code-1-Flash は、実稼働環境で使用される GitHub Copilot harness を直接トレーニングによって訓練され、現実世界の agentic タスクを処理するコーディング AI における画期的な進歩を表します。以前の手法では正確性と効率性は排他的なものとして扱われていましたが、本モデルはこれらがシームレスに共存できることを実証しました。適応的なソリューション長制御を活用し、推論の深さを動的に調整することで、単純なリクエストには簡潔に応答し、複雑な問題にはより多くの予算を割く仕組みです。その結果、開発者は競合製品である Claude Haiku 4.5 に比べて最大 60% も少ないトークンで有用な出力をより早期に受け取り、レイテンシと運用コストを大幅に削減できます。 同じプロダクション harness 内での多様なデータセット(SWE-Bench Verified、SWE-Bench Multilingual、SWE-Bench Pro、Terminal Bench 2)を含む評価が、優位性の高いパフォーマンスを確認しました。MAI-Code-1-Flash は、テストされたすべてのコアコーディングベンチマークにおいて Claude Haiku 4.5 を凌駕し、多様で現実世界のタスクである SWE-Bench Pro で注目される +16 ポイントのリード(51.2% vs. 35.2%)を達成しました。これらの結果は、MAI-Code-1-Flash を使用する場合、より高い正確性と更大なる効率がもはやトレードオフではないことを検証し、インタラクティブなコーディングワークフローを滑らかにしつつ、全体の生産性を最適化するためのトークン投資を実現します。

2026/06/03 5:30

BYD の車部品 CT 走査検査

## Japanese Translation: 主な洞察は、現代のペットボトルが数十年前進化する工学によって最適化されており、シュリンクラップ、積み重ね、粗悪な取扱いなどに対して耐え抜き、産業物流に適合するように設計されているにもかかわらず、開封した後は実用的な使用時間がわずか数秒しかないという点にあります。この耐久性のパラドックスは、長距離輸送での耐久性に大規模な投資を行いながら製品を瞬時に廃棄するという重大な非効率性を浮き彫りにしています。重量のあるガラス(コカ・コーラの 1899 年の製瓶;エビアンが数世紀の陶器製の壺の使用の後、1908年にガラスへ転換)からプラスチックへの進化は、コスト、安全性、重量削減によって推進されました。初期のプラスチック試作には、モンサント社の「Easy-Goer」アクリロニトリルコポリマー(1975 年)があり、それが漏出と動物毒性に関する懸念から 1977年にFDA にて禁止されました。これにより、デュポン社が Polyethylene Terephthalate(PET)を導入した 1967–1973 年へと道が開かれました。1970年代後半には、大型の 2リットルボトル用の PET 生産が始まり、初期デザインは最大 96 g の重量を持ち、接着剤を用いたベースと 0.3–0.4 mm の壁厚を特徴としていました。1990年代初頭の革新としては、接着剤を使用しない「Petaloid」ベースや、より薄い壁(例:アクアフィナで約 0.2 mm)を採用するものがあり、材料使用量を大幅に削減しました。それ以降のさらなる進歩—例えば、ニージャラ・ボトルリング社の Eco-Air デザインが厚さ 0.17 mm 以下を達成し、1998年から現在にかけてプラスチック使用量を 60%削減した事例や、半リットルボトルが 2000年代中期のバージョンと比較して 75%少ないプラスチックを使用した事例—は、継続的な効率向上を反映しています。これらの進歩は企業の戦略とも整合しており、ネスレ社がペリエ社を買収(1992年)や、ペプシ/コカ・コーラがアクアフィナとダサニを中〜後半の 1990年代に発売したことは、ソーダ販売の減少への対応として行われました。しかし環境上の課題は依然として残っています。リサイクルシステムが材料の分離や汚染管理—if 特に破砕されたガラスが多材料ストリームに混入し、新しい容器にとって使用不可能になる—を失敗した場合、これらの良質に設計されたボトルは多くが埋め立て地に行き着いたり、下位利用されたりします。将来の進歩には、スマートなデザイン、厳格な材料分離プロトコル、改善されたリサイクルインフラストラクチャを通じて、サプライチェーンの耐性と廃棄物削減を調和させる必要があります。 ## Text to translate: The primary insight is that modern water bottles represent decades of advanced engineering optimized for robust industrial logistics—surviving shrink-wrapping, stacking, and rough handling—even though they have only seconds of practical use once opened. This durability paradox highlights a major inefficiency: investing heavily in long-haul resilience while discarding the product instantly. The evolution from heavy glass (Coca-Cola's 1899 bottling; Evian's switch to glass in 1908 after decades of earthenware jugs) to plastics was driven by cost, safety, and weight reductions. Early plastic attempts included Monsanto's "Easy-Goer" acrylonitrile copolymer (1975), which faced FDA bans in 1977 due to leaching and animal toxicity concerns, paving the way for DuPont's Polyethylene Terephthalate (PET) introduced around 1967–1973. By the late 1970s, PET production for large two-liter bottles began, with early designs weighing up to 96 g, featuring glued bases and wall thicknesses of 0.3–0.4 mm. Innovations in the early 1990s, such as "Petaloid" bases that eliminated glue and thinner walls (e.g., Aquafina at ~0.2 mm), cut material use significantly. Further advances since then—such as Niagara Bottling's Eco-Air designs under 0.17 mm thickness, which achieved a 60% plastic reduction from 1998 to today, and half-liter bottles using 75% less plastic than mid-2000s versions—reflect ongoing efficiency gains. These advances also align with corporate strategy: Nestlé's acquisition of Perrier (1992), and Pepsi/Coke launching Aquafina and Dasani in the mid-to-late 1990s, all in response to declining soda sales. Yet environmental challenges remain. If recycling systems fail to separate materials or manage contamination—especially with crushed glass mixed into multimaterial streams that become unusable for new containers—these well-engineered bottles often end up landfilled or downcycled. Future progress must reconcile supply chain resilience with waste reduction through smarter design, stricter material separation protocols, and improved recycling infrastructure.

2026/06/03 4:27

「グメールが私をおろかに思っている」と感じたので、退社しました。

## Japanese Translation: 著者は、嫌悪感と軽慢さを感じてしまう強制的な AI 機能のため、16 年使用してきた Gmail アカウントを恒久離脱することにした。具体的な問題は、不要なメッセージの要約、自動補填された返信文、そして「メールを書いてください」、「Tab で改善する」など、ユーザー自身がメールを作成できないか、あるいは受信者への時間の価値が低いことを示唆するような常駐的なプロンプト(促し)が含まれる。一部の AI 機能はオフにすることもできるが、それを行うことで自動的なスレッド分類といった長く使い続けられ有用な機能を犠牲にせざるを得なくなる。著者は、これらの強制的な機能が真のユーザーニーズを満たすためではなく、言語モデルの利用指標を人為的に高めるための意図的な戦術であることを疑っている。Google の従来からある安定したサービスや、fediverse を通じて独自ドメインと接続して使用している Fastmail での良好な第一印象とは裏腹に、著者はこの移行を Google エコシステムからの故意の断絶——単なるクライアントの切り替えではない——と捉えている。著者は連絡先を移す予定だが、歴史のあるメールスレッドはインポートせず、「不快な経験」として記述する後に「きれいな決別」を図る打算である。この状況はより広範な懸念を示している:技術企業は、ユーザーの自律性や長期的な信頼よりもエンゲージメントデータを優先することで、忠実な顧客を失うリスクを抱えている。 ## Text to translate: Improved Summary: The author is permanently leaving their 16-year-old Gmail account due to mandatory AI features they find intrusive and disrespectful. Specific issues include unsolicited message summaries, pre-filled replies, and persistent prompts ("help me write," "Tab to improve") that imply the user cannot compose emails themselves or that recipients do not deserve their time. While some AI features can be disabled, doing so forces users to sacrifice long-standing, useful functions like automatic thread categorization. The author suspects these unsolicited features are intentional tactics to artificially inflate language model usage metrics rather than serve genuine user needs. Despite Google's historically stable service and positive first impressions with Fastmail (which they have connected their custom domain to and use via the fediverse), the author views this move as a deliberate break from Google's ecosystem—not merely a client switch. They plan to migrate their contacts but will not import historical email threads, seeking a "clean break" after what they describe as a "bad taste" experience. The situation highlights a broader concern: tech companies risk losing loyal customers by prioritizing engagement data over user autonomy and long-term trust.