
2026/04/07 3:56
**エージェント読解テスト**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Agent Reading Test ベンチマーク概要
Agent Reading Test は、Claude Code、Cursor、GitHub Copilot などの AI コーディングエージェントが、ドキュメントサイトから情報を読み取り抽出する能力を評価します。エージェントは
https://agentreadingtest.com/start/ にアクセスし、10 ページにわたる 10 のタスクを完了した後、結果ページで発見した「カナリ」トークンの一覧を提出します。正しく識別された各トークンが 1 点とされ、定性的な回答は最大 20 点まで加算されます。このベンチマークは、コンテンツの切り捨て、CSS ノイズ、クライアント側レンダリングシェル、タブ付きコンテンツ、ソフト 404、壊れた Markdown フェンス、コンテンツネゴシエーションの違い、クロスホストリダイレクト、ヘッダー品質、および埋もれた開始位置など、主要な失敗モードを対象としています。各モードは、例として 10 kB、40 kB 等で配置されたトークンにより具体化されています。
現在までの結果では、エージェントは 20 点中約 14–18 点を獲得しており、多くが一つ以上の失敗モードを見逃していることが示唆されています。このベンチマークは、AI エージェント向けドキュメントサイトを評価するために 8 カテゴリにわたる 22 のチェック項目を定義した Agent‑Friendly Documentation Spec の一部です。ソースコードと詳細情報は
github.com/agent-ecosystem/agent-reading-test に GitHub 上で公開されています。本文
AI コーディングエージェントのウェブコンテンツ読解力を測定するベンチマーク
ポイント:テストページにエージェントを向け、スコアを取得し、プラットフォーム間で比較します。
何を検証するか
Claude Code、Cursor、GitHub Copilot 等の AI コーディングエージェントは、ワークフロー中にドキュメントサイトを読むことが多いです。しかし、多くの場合以下のような 「静かな失敗モード」 に遭遇します。
| 失敗モード | 内容 |
|---|---|
| コンテンツ切り捨て | ページ全体が長すぎるため途中で切られる |
| CSS が実際のテキストを覆い隠す | インライン CSS が大量にあると本来の内容が見えづらくなる |
| クライアント側レンダリング | JavaScript 実行後にしかコンテンツが表示されない |
| タブ付きコンテンツ | 複数タブに分かれた内容が連結され、最初のタブのみが可視化される |
このベンチマークは、上記の失敗モードを有意義に検出できるかどうかを測定します。各テストページは Agent‑Friendly Documentation Spec に記載された具体的な問題点を想定して設計されており、戦略的箇所に「カナリー・トークン」を埋め込んでいます。エージェントにはトークンを探すよう指示せず、実際のドキュメントタスク(例えば「ページ全体を読み取れ」「特定のセクションを抜き出せ」)を課し、タスク完了後にカナリー・トークンを報告させます。結果はスコアリングフォームへ貼り付けて詳細評価します。
使い方
-
スタートページ
エージェントを
に向け、指示に従わせます。agentreadingtest.com/start/ -
タスク完了
- 合計10のドキュメントタスクを実行します。各タスクは特定の失敗モードを対象としたページを読むものです。エージェントはまだカナリー・トークンを知らない状態です。
-
結果ページへ移動
- タスク完了後に結果ページにアクセスし、見たカナリー・トークンを報告させます。
-
スコアリングフォームへの貼り付け
- エージェントはカンマ区切りでカナリー・トークンのリストを返します。これをスコアリングフォームに貼り付けると、エージェントがどこまで情報を取得できたか詳細に分析できます。
テスト項目
| # | テスト名 | 説明 |
|---|---|---|
| 1 | Truncation | 150 K文字のページで、10 K・40 K・75 K・100 K・130 K にカナリー。エージェントがどこで切断されるかを測定。 page-size‑html, page-size‑markdown |
| 2 | Boilerplate Burial | 本文の前に80 K文字分のインライン CSS があるケース。CSS ノイズと実際のドキュメントを区別できるか。 content-start-position |
| 3 | SPA Shell | クライアント側で JavaScript 実行後に初めて内容が現れるページ。多くのエージェントは空のシェルしか取得しない。 rendering-strategy |
| 4 | Tabbed Content | 8 つの言語バリアントをタブで切り替え、1・4・8 タブにカナリー配置。エージェントがどこまでシリアライズされたタブ内容を読むか。 tabbed-content-serialization |
| 5 | Soft 404 | HTTP 200 を返しつつ「ページが見つかりません」メッセージを表示。エラー判定ができるか。 http-status-codes |
| 6 | Broken Code Fence | Markdown に未閉じコードフェンスを設置、以降全てを「コード」として扱うケース。Markdown パーサーの認識力をテスト。 markdown-code-fence-validity |
| 7 | Content Negotiation | HTML と Markdown の両方に異なるカナリーを配置し、より適切なフォーマットを要求できるか。 content-negotiation |
| 8 | Cross‑Host Redirect | 301 リダイレクトで別ホストへ転送。多くのエージェントはセキュリティ上追跡しないため、カナリーは遷移先にある。 redirect-behavior |
| 9 | Header Quality | 3 クラウドプロバイダーで同一「Step 1/2/3」ヘッダーを使用。セクションの区別ができるか確認。 section-header-quality |
| 10 | Content Start | ナビゲーションチャイルムの50%に実際のコンテンツが埋もれるケース。サイドバー直後まで読み取れるかを検証。 content-start-position |
スコアリング方法
- ベンチマークは最大 20 点 を採点します。
- カナリー・トークンを見つけたごとに 1 点
- 質的質問への正解ごとに 1 点
- 現在のエージェントでは完璧点(20/20)を取ることはほぼ不可能です。各失敗モードが現実的に影響するよう設計されており、典型的なスコア範囲は 14〜18 点 が想定されます(プラットフォームのウェブフェッチパイプラインによります)。
このプロジェクトについて
Agent Reading Test は、ドキュメントサイトが AI エージェントにどれだけ適合しているかを評価する Agent‑Friendly Documentation Spec の補完的プロジェクトです。Spec では 8 カテゴリにわたる 22 のチェック項目を定義し、実際のエージェントワークフローから得られた経験則に基づいています。
本ベンチマークは「ドキュメントサイトをテストする」観点ではなく、「エージェント自体をテストする」視点で設計されました。失敗モードは同じですが、ここではどのエージェントがそれらをうまく処理できるか、逆に失敗しているかを測定します。
ソースコード:https://github.com/agent-ecosystem/agent-reading-test