
2026/03/11 7:27
クラウドフレア クローラ エンドポイント
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
サマリー
Cloudflare の Browser Rendering サービスは、オープンベータ版の
/crawl エンドポイントを公開しました。これにより、単一の API コールでウェブサイト全体をクロールできます。
-
仕組み:
POST リクエストで開始 URL と任意の設定(depth、page limits、ワイルドカードパターン、
等)を送信します。サービスは sitemap やリンクから自動的にページを発見し、ヘッドレスブラウザでレンダリング(またはrender: false
の場合は静的 HTML を取得)して結果を非同期で返します。render: false -
非同期ワークフロー:
ジョブ ID が返され、その後 GET エンドポイントをポーリングして処理済みページを raw HTML、Markdown、または構造化 JSON として取得できます。 -
主な機能:
- 複数の出力形式(HTML、Markdown、JSON)
- depth とワイルドカードベースのスコープ制御
/modifiedSince
による増分クロールmaxAge
の crawl‑delay ディレクティブへの対応robots.txt- Workers Free および Paid プランの両方で利用可能
-
インパクト:
開発者はプログラム的にサイトコンテンツを取得でき、分析チームは構造化ページデータを収集し、SEO ツールは効率的にサイトをインデックスできます。さらに、従来のクローラに代わる低コストなオルタナティブとして、ウェブクロールエコシステム全体にも貢献します。
このバージョンでは、Key Points List の主要ポイントすべてを保持しつつ、メインメッセージを明確かつ曖昧さのない表現にしています。
本文
ブラウザレンダリング – /crawl エンドポイント(オープンベータ)
単一の API 呼び出しでウェブサイト全体をクロールできます。開始 URL を送信すると、サービスが自動的にページを検出し、ヘッドレスブラウザでレンダリングして、HTML・Markdown・構造化 JSON の複数フォーマットで返します。
- モデルの学習、RAG パイプラインの構築、サイト全体のコンテンツ調査や監視に有用です。
- クロールジョブは非同期で実行されます:URL を送信 → ジョブ ID を受け取る → ページが処理されるたびに結果をポーリングします。
API 呼び出し例
クロールの開始
curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \ -H 'Authorization: Bearer <apiToken>' \ -H 'Content-Type: application/json' \ -d '{ "url": "https://blog.cloudflare.com/" }'
結果の確認
curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \ -H 'Authorization: Bearer <apiToken>'
主な機能
- 複数出力フォーマット – HTML、Markdown、および Workers AI が生成する構造化 JSON。
- クロール範囲制御 – クロール深さ、ページ上限、ワイルドカードパターンで URL パスの包含・除外を設定可能。
- 自動ページ検出 – サイトマップやページリンクから URL を取得(両方とも可)。
- 増分クロール –
とmodifiedSince
を利用して変更されていないページをスキップし、再クロール時の時間とコストを削減。maxAge - 静的モード –
を設定すると、ブラウザ起動せずに静的 HTML を取得でき、静的サイトの高速クロールが可能。render: false - 礼儀正しいボット – robots.txt の指示(crawl-delay も含む)を尊重します。
Workers Free と Paid プランの両方で利用可能です。
開始するには、crawl エンドポイントのドキュメント を参照してください。
自サイトをクロール対象に設定する場合は、robots.txt とサイタマップのベストプラクティスを確認してください。