すべての検索ニーズを Grep で満たせるか?エージェントのハネス(Agent Harness)が agentic シー arch をどのように再定義するか

2026/06/09 22:27

すべての検索ニーズを Grep で満たせるか?エージェントのハネス(Agent Harness)が agentic シー arch をどのように再定義するか

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

本研究の核心的な所見は、RAG(Retrieval-Augmented Generation)システムの実効性は、単にリトリビュアル手法自体だけでなく、主にツールの呼び出し方法やその出力がモデルに提示される方法といった特定の技術的な選択に大きく依存しているという点である。大規模言語モデルエージェントが複雑なタスクのために膨大な情報に自律的にアクセスできるようになったのは最近の進展によるものでありながら、既存の文献は、ツール出力形式や不関連な周辺テキスト下での性能といった実用的な側面は見落としてきている。

このギャップに対処するため、著者たちは 2 つのリトリビュアル戦略を比較する実証的研究を実施した。「grep」は正確なキーワード一致を検索し、「vector retrieval」は意味的な類似性を使用して関連する概念を見つけるものである。実験では、カスタムエージェント(Chronos)およびプロバイダーネイティブの CLI ツール(Claude Code、Codex、Gemini)を含む様々なハネスとツール呼び出しスタイルにおいて、エージェントの性能を評価した。また、ツール結果をインラインで渡すか、別個にファイルから読み取るかのバリエーションについても検討した。

第 1 の実験では、LongMemEval から抜粋された 116 問の問題セットを用いてこれらのアプローチを比較し、複数のハネスにおいて grep が vector retrieval よりも一般的に高い精度を達成したことを示した。第 2 の実験では、徐々に増やす迷惑な会話履歴を導入して、関連する文書が不関連な材料の中に埋め込まれた状態でクエリがどのように動作するかを評価し、迷惑要素が増えるにつれて性能が著しく低下することを明らかにした。

総じて、本研究は、エージェントの精度を最適化するにはリトリビュアルアルゴリズムを選択するだけでなく、エンジニアがアプリケーションに合わせて注意深くインターフェース形式とツール呼び出し戦略を設計し、不関連な情報を軽減して性能を最大化しなければならないことを示している。

本文

LLM エージェントにおける検索戦略の実証的研究:grep とベクトル検索の比較分析

研究背景と課題

近年、大規模言語モデル(LLM)エージェント分野では以下のような進展がなされています。

  • 情報検索と推論の統合: モデルが情報を自主的に検索し、ツールを呼び出しながら大規模コーパス上で推論を行うことで、ユーザー代理として複雑なタスクを完了させる「エージェント型ワークフロー」の実現が可能になりました。
  • RAG の普及期待: Retrieval-augmented generation(RAG)技術がエージェント系検索システムへの採用拡大を見込んでいます。
  • 既存文献の不足点: しかし、既存の文献では以下の点について体系的な比較が不足しています。
    • 検索戦略の選択がどのようにエージェントアーキテクチャツール呼び出しのパラダイムと相互作用するか。
    • エージェントループにおける探求において、以下の実用的側面が十分に調査されておらず、改善の余地がある点。
      • モデルに対してツールの出力をどのような形式で提示すべきか。
      • 検索結果により関連性の低い周辺テキスト(妨害的な素材)が含まれる状況下での性能変化について。

研究目的

本研究では、2 つの実験から構成される実証的研究を通じて、上記の課題を検証し、以下の点を明らかにします。

  • 検索手法としての
    grep
    とベクトル検索の精度比較。
  • ツール出力形式(インライン vs ファイルベース)の影響評価。
  • アプローチの依存性:同じ会話データを用いても、どのハブ(Hub)およびツール呼び出しスタイルを採用するかによって全体的なスコアが強く変化することの検証。

実験手法と設定

実験 1: ツール出力形式による比較検証

LongMemEval の 116 題分のサンプルを用いて以下の条件を比較検証しました。

  • 検索手法:
    grep
    とベクトル検索の両者を適用。
  • 利用環境(ハブ):
    • 自社開発エージェントハブ:
      Chronos
    • プロバイダー独自コマンドラインインターフェース(CLI)系ハブ:
      • Claude Code
      • Codex
      • Gemini CLI
  • 検証項目:
    • インライン形式: ツール結果をチャット履歴内に直接埋め込み。
    • ファイルベース: モデルが別途読み込むようにファイルとして出力させるスタイル。

実験 2: ノイズ耐性と検索単体の性能評価

grep
単独およびベクトル単独の検索手法を比較し、ノイズの影響を確認しました。

  • ノイズ注入戦略: 徐々に無関係な会話履歴を混ぜ込んでいく処理を実施。
  • 再現シナリオ: 各クエリが重要なパスセグメントとともに、より多くの妨害的な素材の中で埋め込まれた状態を再現。
    • これにより、検索システムがノイズのある環境下でどの程度の性能を維持できるかを評価。

主要な発見と結論

本研究の実験結果から、以下のような重要な知見が得られました。

  • 精度における検索手法の違い:
    • 実験 1 の比較結果を通じて、
      grep
      はベクトル検索に比べて一般的に高い精度を示す傾向が確認されました。
  • システム構成の重要性:
    • 基盤となる会話データが同じであるにもかかわらず、全体的なスコアは以下の要素によって強く依存することが明らかになりました。
      • 利用するハブ(Chronos vs プロバイダー系 CLI)
      • 採用するツール呼び出しスタイル(インライン vs ファイルベース)
  • 実装の最適化:
    • 検索戦略を選ぶだけでなく、出力形式や**利用環境(CLI/自社工房ツール)**と密接に連携させることが性能向上に不可欠であることが示唆されました。

同じ日のほかのニュース

一覧に戻る →

2026/06/10 1:58

クロード・フェブル 5

## 日本語訳: 以下の改善されたバージョンでは、欠落していた安全性の詳細、具体的な価格設定構造、データ保持ポリシー、および可用性のタイムラインを補いながら、明瞭性を維持しています: ## まとめ: Anthropic は、一般使用に安全であり、ソフトウェア工学、可視化解析、長期コンテキスト処理、科学的研究、およびメモリータスクにおいて従来のすべてのバージョンを超えた「Mythos クラス」のモデルである **Claude Fable 5** を導入しました。同モデルは直ちに API とサブスクリプションプラン(Pro から Enterprise まで)で利用でき、6 月 22 日まで利用可能です(6 月 23 日からは使用クレジットに移行)。価格は入力トークンあたり **10 ドル**、出力トークンあたり **50 ドル** で設定されており、Claude Mythos Preview など以前のプレミアムモデルよりも大幅に安価です。 Fable 5 は転換的な性能向上を提供し、以前は何ヶ月もかかった工学タスクを数日へと圧縮するとともに、薬剤設計を約 10 倍加速させます。安全性と有用性のバランスを取りつつ、Fable 5 におけるセンシティブなトピックに関するクエリについては、**Claude Opus 4.8** にフォールバックを行う設定となっており、これは保守的なチューニングによりセッションの **約 5% よりも少ない割合** で発生します。さらに、特定の分類器は生物学/化学分野での危険な研究の向上や悪意のあるハッキング試行をブロックします。また、Anthropic は Mythos クラスモデルに対して新しい **30 日間のデータ保持ポリシー** を実施し、このトラフィックを新モデルの訓練や安全性以外の目的で使用することを禁止しています。 一般向けの Fable 5 バージョンは依然として非常に安全ですが、未検閲バージョンである **Claude Mythos 5** は、15 カ国以上で選択されたサイバーセキュリティおよびインフラストラクチャパートナー(将来的には約 150 の新しい組織へ拡大)を独占的に対象とする **Project Glasswing** を通じて利用可能です。この戦略的動きは、責任ある使用基準を損なうことなく科学的発見を加速し、重要インフラのセキュリティを強化することを目的としています。プログラムには、将来、特定の生命科学研究者のために生物学/化学の safeguards を解除する計画も含まれています。

2026/06/10 6:01

NPM バージョン 12 で導入される予定のbreaking changes

## Japanese Translation: npm v12 開始(推定リリースは 2026 年 7 月)、`npm install` に対してより厳格なセキュリティデフォルトが適用されます。最も重要な変更は、自動スクリプト実行の無効化です(`allowScripts` がデフォルトでオフ)。明示的に承認されないと、preinstall、install、postinstall スクリプト(`node-gyp` を介するネイティブビルドを含む)がブロックされます。準備のためには、これらの変更を警告付きで利用可能な npm v11.16.0+(またはそれ以降)を使用してください:`npm approve-scripts --allow-scripts-pending` を実行し、信頼できるパッケージについては `npm approve-scripts` で明示的に承認し、他は `npm deny-scripts` で拒否します。結果となる許可リストは `package.json` に書き込まれコミットすべきであり、v12 へのアップグレード後は承認されたスクリプトのみが実行されます。 さらに、デフォルトでは `--allow-git`(npm 11.10.0+ で利用可能)は none に解決され、Git ベースの依存関係に対して明示的なフラグが必要となり、`.npmrc` オーバーライドを介した潜在的なコード実行経路を閉じます。同様に、`--allow-remote`(npm 11.15.0+ で利用可能)はリモート URL から依存関係を解決する場合にデフォルトで none に設定されます。`--allow-file` および `--allow-directory` は現在のデフォルトを維持します。保守担当者および CI/CD パイプラインは依存関係を検証し、`package.json` 内の許可リストを更新し、アップグレード前に変更をコミットする必要があります。そうでない場合、手動の例外を設定しない限りビルド失敗となります。詳細は npm ドキュメントの `npm approve-scripts`、`npm deny-scripts`、および `allow-scripts config` をご参照ください。

2026/06/10 4:21

FPGA を用いたKolmogorov-Arnold Networkによる超高速機械学習

## Japanese Translation: 本テキストは、Kolmogorov-Arnold Network(KAN)を Field-Programmable Gate Array(FPGA)上で展開し、超高速機械学習に特化して設計された革命的な新ハードウェアアーキテクチャを導入します。従来の GPU はスケジューリング遅延およびメモリオーバーヘッドによりマイクロ秒以下の応答時間を達成できず苦労しますが、この FPGA ベースのアプローチでは、ニューラルネットワークをリプログラミング可能なデジタルロジックと直接統合するため、アルゴリズムと設計のコデザインを採用しています。固定された重みではなく、B スプライン基底関数によって定義される学習可能なエッジアクティベーションに置き換えることで、伝統的なルックアップテーブルモデルに見られるような指数関数的スケーリングの問題を回避します。この手法は、定点符号化によるデータエンコーディングの簡素化を実現し、トレーニングの安定性を確保します。主な革新点は、「B スプラインの局所性」の利用であり、グリッドセルごとにアクティブとなる基底関数の数が限られているため、ネットワークの次数を増やすことなくグリッドサイズを拡大することでモデルを水平方向にスケール可能になります。得られる枠組みは「KANELÉ」と命名され、従来の実装に対する驚異的な 2,700 倍もの速度向上を達成し、オンデバイスでの動的モデル更新が可能となる真のオンライン学習を実現します。この画期的な成果は、量子コンピューティング制御システムなどリアルタイム意思決定が必要な産業に対し、高効率性と継続的改善を支援する GPU の代替として堅牢な選択肢を提供します。大規模テストにおいて、同システムは関数近似やキュビット読み出しなどのタスクで伝統的な MLP よりも優れたハードウェアスケーリングと収束性を示し、50,000 パラメータまで扱いながらマイクロ秒以下のレイテンシを維持しました。