**エージェント読解テスト**

2026/04/07 3:56

**エージェント読解テスト**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Agent Reading Test ベンチマーク概要
Agent Reading Test は、Claude Code、Cursor、GitHub Copilot などの AI コーディングエージェントが、ドキュメントサイトから情報を読み取り抽出する能力を評価します。エージェントは

https://agentreadingtest.com/start/
にアクセスし、10 ページにわたる 10 のタスクを完了した後、結果ページで発見した「カナリ」トークンの一覧を提出します。正しく識別された各トークンが 1 点とされ、定性的な回答は最大 20 点まで加算されます。
このベンチマークは、コンテンツの切り捨て、CSS ノイズ、クライアント側レンダリングシェル、タブ付きコンテンツ、ソフト 404、壊れた Markdown フェンス、コンテンツネゴシエーションの違い、クロスホストリダイレクト、ヘッダー品質、および埋もれた開始位置など、主要な失敗モードを対象としています。各モードは、例として 10 kB、40 kB 等で配置されたトークンにより具体化されています。
現在までの結果では、エージェントは 20 点中約 14–18 点を獲得しており、多くが一つ以上の失敗モードを見逃していることが示唆されています。このベンチマークは、AI エージェント向けドキュメントサイトを評価するために 8 カテゴリにわたる 22 のチェック項目を定義した Agent‑Friendly Documentation Spec の一部です。ソースコードと詳細情報は
github.com/agent-ecosystem/agent-reading-test
に GitHub 上で公開されています。

本文

AI コーディングエージェントのウェブコンテンツ読解力を測定するベンチマーク

ポイント:テストページにエージェントを向け、スコアを取得し、プラットフォーム間で比較します。


何を検証するか

Claude Code、Cursor、GitHub Copilot 等の AI コーディングエージェントは、ワークフロー中にドキュメントサイトを読むことが多いです。しかし、多くの場合以下のような 「静かな失敗モード」 に遭遇します。

失敗モード内容
コンテンツ切り捨てページ全体が長すぎるため途中で切られる
CSS が実際のテキストを覆い隠すインライン CSS が大量にあると本来の内容が見えづらくなる
クライアント側レンダリングJavaScript 実行後にしかコンテンツが表示されない
タブ付きコンテンツ複数タブに分かれた内容が連結され、最初のタブのみが可視化される

このベンチマークは、上記の失敗モードを有意義に検出できるかどうかを測定します。各テストページは Agent‑Friendly Documentation Spec に記載された具体的な問題点を想定して設計されており、戦略的箇所に「カナリー・トークン」を埋め込んでいます。エージェントにはトークンを探すよう指示せず、実際のドキュメントタスク(例えば「ページ全体を読み取れ」「特定のセクションを抜き出せ」)を課し、タスク完了後にカナリー・トークンを報告させます。結果はスコアリングフォームへ貼り付けて詳細評価します。


使い方

  1. スタートページ
    エージェントを

    agentreadingtest.com/start/
    に向け、指示に従わせます。

  2. タスク完了

    • 合計10のドキュメントタスクを実行します。各タスクは特定の失敗モードを対象としたページを読むものです。エージェントはまだカナリー・トークンを知らない状態です。
  3. 結果ページへ移動

    • タスク完了後に結果ページにアクセスし、見たカナリー・トークンを報告させます。
  4. スコアリングフォームへの貼り付け

    • エージェントはカンマ区切りでカナリー・トークンのリストを返します。これをスコアリングフォームに貼り付けると、エージェントがどこまで情報を取得できたか詳細に分析できます。

テスト項目

#テスト名説明
1Truncation150 K文字のページで、10 K・40 K・75 K・100 K・130 K にカナリー。エージェントがどこで切断されるかを測定。
page-size‑html, page-size‑markdown
2Boilerplate Burial本文の前に80 K文字分のインライン CSS があるケース。CSS ノイズと実際のドキュメントを区別できるか。
content-start-position
3SPA Shellクライアント側で JavaScript 実行後に初めて内容が現れるページ。多くのエージェントは空のシェルしか取得しない。
rendering-strategy
4Tabbed Content8 つの言語バリアントをタブで切り替え、1・4・8 タブにカナリー配置。エージェントがどこまでシリアライズされたタブ内容を読むか。
tabbed-content-serialization
5Soft 404HTTP 200 を返しつつ「ページが見つかりません」メッセージを表示。エラー判定ができるか。
http-status-codes
6Broken Code FenceMarkdown に未閉じコードフェンスを設置、以降全てを「コード」として扱うケース。Markdown パーサーの認識力をテスト。
markdown-code-fence-validity
7Content NegotiationHTML と Markdown の両方に異なるカナリーを配置し、より適切なフォーマットを要求できるか。
content-negotiation
8Cross‑Host Redirect301 リダイレクトで別ホストへ転送。多くのエージェントはセキュリティ上追跡しないため、カナリーは遷移先にある。
redirect-behavior
9Header Quality3 クラウドプロバイダーで同一「Step 1/2/3」ヘッダーを使用。セクションの区別ができるか確認。
section-header-quality
10Content Startナビゲーションチャイルムの50%に実際のコンテンツが埋もれるケース。サイドバー直後まで読み取れるかを検証。
content-start-position

スコアリング方法

  • ベンチマークは最大 20 点 を採点します。
    • カナリー・トークンを見つけたごとに 1 点
    • 質的質問への正解ごとに 1 点
  • 現在のエージェントでは完璧点(20/20)を取ることはほぼ不可能です。各失敗モードが現実的に影響するよう設計されており、典型的なスコア範囲は 14〜18 点 が想定されます(プラットフォームのウェブフェッチパイプラインによります)。

このプロジェクトについて

Agent Reading Test は、ドキュメントサイトが AI エージェントにどれだけ適合しているかを評価する Agent‑Friendly Documentation Spec の補完的プロジェクトです。Spec では 8 カテゴリにわたる 22 のチェック項目を定義し、実際のエージェントワークフローから得られた経験則に基づいています。

本ベンチマークは「ドキュメントサイトをテストする」観点ではなく、「エージェント自体をテストする」視点で設計されました。失敗モードは同じですが、ここではどのエージェントがそれらをうまく処理できるか、逆に失敗しているかを測定します。

ソースコードhttps://github.com/agent-ecosystem/agent-reading-test

同じ日のほかのニュース

一覧に戻る →

2026/04/07 4:50

**Show HN: Ghost Pepper – Mac 用ローカル「ホールド・トゥー・トーク」音声認識アプリ** - **概要** シングルキー(デフォルトは⌘)を押し続けるだけで、Mac 上で話す内容をテキスト化できる軽量かつプライバシー重視のアプリです。クラウド処理は一切行わず、全てローカルで完結します。 - **主な機能** • 即時文字起こし(遅延がほぼゼロ) • 複数言語・方言に対応 • ショートカットやホットキーのカスタマイズ可能 • 内蔵文法校正と句読点自動挿入 • オープンソース(GitHub) - **重要性** • 第三者 API に依存しないため、コスト削減とデータ共有に関する懸念が軽減されます • 開発者・作家・サブスクリプション不要で高速な文字起こしを求める人に最適です - **入手方法** 1. GitHub のリリースページから最新版をダウンロード 2. `GhostPepper.app` を `/Applications` フォルダーへドラッグ&ドロップ 3. アプリを起動し、好みのキー割り当てを設定して話し始める - **フィードバック & サポート** GitHub 上で不具合報告や機能リクエストが受け付けられています。小規模な貢献者コミュニティによって積極的にメンテナンスされています。 *macOS でクラウドを使わず低遅延の音声認識ツールを探しているなら、Ghost Pepper が最適かもしれません。*

## Japanese Translation: **概要** Ghost PepperはmacOS専用の完全ローカル音声認識アプリで、macOS 14+ Apple Silicon上で動作します。 - **プライバシー優先設計:** クラウドAPIを使用せず、データはマシンから外部へ出ることがなく、転写結果はメモリ内にのみ保持されます(デバッグログは終了時に消失)。 - **動作方法:** Controlキーを押し続けて録音し、離すと自動的に任意のテキストフィールドへ転写結果が貼り付けられます。 - **モデルオプション:** - *音声認識モデル:* Whisper tiny.en (~75 MB)、Whisper small.en(デフォルト、~466 MB)、Whisper small multilingual (~466 MB)、Parakeet v3 (~1.4 GB)。 - *クリーンアップモデル:* Qwen 3.5 0.8B (~535 MB, ~1–2 s)、Qwen 3.5 2B (~1.3 GB, ~4–5 s)、Qwen 3.5 4B (~2.8 GB, ~5–7 s)。 - **ユーザーインターフェース:** メニューバーに表示され、Dockアイコンはありません。ログイン時に自動起動しますが、設定で無効化可能です。 - **権限:** マイクロフォンとアクセシビリティの許可が必要です(音声取得およびキーストロークの擬似入力)。 - **インストール & ライセンス:** DMGからインストールするか、Xcodeでソースをビルドします。アプリはMITライセンスで配布され、WhisperKit、LLM.swift、Hugging Face、Sparkle を使用しています。 - **エンタープライズサポート:** 管理デバイス上ではMDM PPPCペイロード(Bundle ID `com.github.matthartman.ghostpepper`、Team ID `BBVMGXR9AY`)を通じてアクセシビリティ許可を事前承認できます。 Ghost Pepperはクラウドサービスに依存せず、資金調達も大きくなく、完全ローカルで利用できる無料の音声転写代替手段です。

2026/04/07 1:32

**Launch HN: フリースタイル – コーディングエージェント用サンドボックス**

## Japanese Translation: **概要:** プラットフォームは、サンドボックスと呼ばれる完全に管理されたLinux仮想マシンを提供し、ユーザーがコードの保存・デプロイ・ネットワーキングを正確に制御した状態で数万ものコーディングエージェントを実行できるようにします。各サンドボックスはコンテナではなく完全なVMであり、本当のrootアクセス、ネストされた仮想化サポート、ユーザーアカウントのシール、systemdサービス、グループ分離、およびフルLinuxネットワークスタックを提供します。エージェントコードはプラットフォーム上のGitリポジトリに格納され、FreestyleやGitHubなどの外部リポジトリと双方向で同期できます。ユーザーはブランチ、パス、イベントタイプでフィルタリングされた各リポジトリごとの細かなWebhooksを設定し、`ci.internal/webhook`、Slack(`hooks.slack.com/trigger`)またはFreestyleデプロイトリガーなどのエンドポイントに接続できます。デプロイメントはgitプッシュで自動化するか、Freestyle Deployments機能を使用してVMに直接クローンすることも可能です。Agent Scale Infrastructureインターフェースは多数のサンドボックス間でスケーリングを実現し、無料ティアはクレジットカード不要で実験を促進します。このソリューションは組織に対して、安全かつ拡張性のあるエージェント環境を提供し、インフラストラクチャとネットワーキングのニーズを満たします。

2026/04/06 19:36

サム・オルトマンは私たちの未来を支配できるか――彼を信頼してよいのでしょうか?