**エージェント読解テスト**

Japanese Translation:

Agent Reading Test ベンチマーク概要
Agent Reading Test は、Claude Code、Cursor、GitHub Copilot などの AI コーディングエージェントが、ドキュメントサイトから情報を読み取り抽出する能力を評価します。エージェントは

https://agentreadingtest.com/start/

github.com/agent-ecosystem/agent-reading-test

AI コーディングエージェントのウェブコンテンツ読解力を測定するベンチマーク

ポイント：テストページにエージェントを向け、スコアを取得し、プラットフォーム間で比較します。

何を検証するか

Claude Code、Cursor、GitHub Copilot 等の AI コーディングエージェントは、ワークフロー中にドキュメントサイトを読むことが多いです。しかし、多くの場合以下のような 「静かな失敗モード」 に遭遇します。

失敗モード	内容
コンテンツ切り捨て	ページ全体が長すぎるため途中で切られる
CSS が実際のテキストを覆い隠す	インライン CSS が大量にあると本来の内容が見えづらくなる
クライアント側レンダリング	JavaScript 実行後にしかコンテンツが表示されない
タブ付きコンテンツ	複数タブに分かれた内容が連結され、最初のタブのみが可視化される

このベンチマークは、上記の失敗モードを有意義に検出できるかどうかを測定します。各テストページは Agent‑Friendly Documentation Spec に記載された具体的な問題点を想定して設計されており、戦略的箇所に「カナリー・トークン」を埋め込んでいます。エージェントにはトークンを探すよう指示せず、実際のドキュメントタスク（例えば「ページ全体を読み取れ」「特定のセクションを抜き出せ」）を課し、タスク完了後にカナリー・トークンを報告させます。結果はスコアリングフォームへ貼り付けて詳細評価します。

使い方

スタートページ
エージェントを
```
agentreadingtest.com/start/
```
に向け、指示に従わせます。
タスク完了
- 合計10のドキュメントタスクを実行します。各タスクは特定の失敗モードを対象としたページを読むものです。エージェントはまだカナリー・トークンを知らない状態です。
結果ページへ移動
- タスク完了後に結果ページにアクセスし、見たカナリー・トークンを報告させます。
スコアリングフォームへの貼り付け
- エージェントはカンマ区切りでカナリー・トークンのリストを返します。これをスコアリングフォームに貼り付けると、エージェントがどこまで情報を取得できたか詳細に分析できます。

テスト項目

#	テスト名	説明
1	Truncation	150 K文字のページで、10 K・40 K・75 K・100 K・130 K にカナリー。エージェントがどこで切断されるかを測定。 page-size‑html, page-size‑markdown
2	Boilerplate Burial	本文の前に80 K文字分のインライン CSS があるケース。CSS ノイズと実際のドキュメントを区別できるか。 content-start-position
3	SPA Shell	クライアント側で JavaScript 実行後に初めて内容が現れるページ。多くのエージェントは空のシェルしか取得しない。 rendering-strategy
4	Tabbed Content	8 つの言語バリアントをタブで切り替え、1・4・8 タブにカナリー配置。エージェントがどこまでシリアライズされたタブ内容を読むか。 tabbed-content-serialization
5	Soft 404	HTTP 200 を返しつつ「ページが見つかりません」メッセージを表示。エラー判定ができるか。 http-status-codes
6	Broken Code Fence	Markdown に未閉じコードフェンスを設置、以降全てを「コード」として扱うケース。Markdown パーサーの認識力をテスト。 markdown-code-fence-validity
7	Content Negotiation	HTML と Markdown の両方に異なるカナリーを配置し、より適切なフォーマットを要求できるか。 content-negotiation
8	Cross‑Host Redirect	301 リダイレクトで別ホストへ転送。多くのエージェントはセキュリティ上追跡しないため、カナリーは遷移先にある。 redirect-behavior
9	Header Quality	3 クラウドプロバイダーで同一「Step 1/2/3」ヘッダーを使用。セクションの区別ができるか確認。 section-header-quality
10	Content Start	ナビゲーションチャイルムの50%に実際のコンテンツが埋もれるケース。サイドバー直後まで読み取れるかを検証。 content-start-position

スコアリング方法

ベンチマークは最大 20 点 を採点します。
- カナリー・トークンを見つけたごとに 1 点
- 質的質問への正解ごとに 1 点
現在のエージェントでは完璧点（20/20）を取ることはほぼ不可能です。各失敗モードが現実的に影響するよう設計されており、典型的なスコア範囲は 14〜18 点 が想定されます（プラットフォームのウェブフェッチパイプラインによります）。

このプロジェクトについて

Agent Reading Test は、ドキュメントサイトが AI エージェントにどれだけ適合しているかを評価する Agent‑Friendly Documentation Spec の補完的プロジェクトです。Spec では 8 カテゴリにわたる 22 のチェック項目を定義し、実際のエージェントワークフローから得られた経験則に基づいています。

本ベンチマークは「ドキュメントサイトをテストする」観点ではなく、「エージェント自体をテストする」視点で設計されました。失敗モードは同じですが、ここではどのエージェントがそれらをうまく処理できるか、逆に失敗しているかを測定します。

ソースコード：https://github.com/agent-ecosystem/agent-reading-test