![It seems that OpenAI is scraping [certificate transparency] logs](/_next/image?url=%2Fscreenshots%2F2025-12-16%2F1765846732859.webp&w=3840&q=75)
2025/12/15 22:48
It seems that OpenAI is scraping [certificate transparency] logs
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
以下は、提示された事実に厳密に従い、すべてのタイムスタンプを含め、推測的な表現を避けた練縮版です。
Summary
Benjojo は 2025 年 12 月 12 日 20:46 +0000 に、
autoconfig.benjojo.uk の新しい TLS 証明書を発行した後、Certificate Transparency(CT)ログでユーザーエージェント「OAI‑SearchBot/1.3」から /robots.txt への HTTP GET リクエストが観測されたと投稿しました。サーバーは 404 ステータスと約 162 µs の処理時間を記録しています。Wolf480pl は 20:57 +0000 に返信し、こうしたボット活動は長年一般的であること、OpenAI が特に関与しているかどうかを疑問視しました。Benjojo は 21:10 +0000 に回答し、そのリクエストが検索エンジンのインデックス化を引き起こしたと確認しました。
2025 年 12 月 13 日、Wolf480pl は CT ログでドメイン名をハッシュ化(
hash(domain, nonce))することで列挙リスクを減らすことを提案し、Benjojo はその日の後半に CT ログが CA 証明書とポリシーの外部検証を可能にする役割を強調しました。Wolf480pl はさらに証明書発行者の識別とドメイン列挙のデメリットについて議論し、Benjojo はドメインは公開されており、ワイルドカード証明書が露出を軽減すると反論しました。会話では DNSSEC/NSEC3 も触れられ、Benjojo は限界ケース以外での価値について疑問を呈しました。
Jamesog は 2025 年 12 月 12 日 21:09 +0000 にコメントし、新しい CT エントリを最速で拾うエンティティがどこかをサーバーログから把握できると述べました。
このバージョンでカバーされた主なポイント
- すべての投稿の日付と時刻。
- ログエントリーに含まれる具体的なユーザーエージェント、ステータスコード、および処理時間。
- 参加者(Benjojo、Wolf480pl、Jamesog)の全貢献。
- ハッシュ化、ワイルドカード証明書、DNSSEC/NSEC3 に関する技術的議論を推測的結論なしに記述。
本文
ベンジョー
投稿 2025年12月12日 20:46 +0000
笑。
新しい TLS 証明書を発行したら、OpenAI が CT ログをスクレイピングしているようで、ほぼ即座に応答が返ってきました。これは「スクレイピングの対象」を推測できるほどです:
Dec 12 20:43:04 xxxx xxx[719]: l=debug m="http request" pkg=http httpaccess= handler=(nomatch) method=get url=/robots.txt host=autoconfig.benjojo.uk duration="162.176µs" statuscode=404 proto=http/2.0 remoteaddr=74.7.175.182:38242 tlsinfo=tls1.3 useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; robots.txt; +https://openai.com/searchbot" referrr= size=19 cid=19b14416d95
返信 2025年12月12日 20:57 +0000
https://benjojo.co.uk/u/benjojo/h/Gxy2qrCkn1Y327Y6D3 に対して
@benjojowp-login.php のボットは何年も前からそうしていたので、OpenAI がやっていないとは思えません
ベンジョー
返信 2025年12月12日 21:10 +0000
https://mstdn.io/users/wolf480pl/statuses/115708595554461422 に対して
@wolf480pl はい、そして「検索エンジン」を「種」する悪くない方法だと推測します
返信 2025年12月13日 12:59 +0000
https://benjojo.co.uk/u/benjojo/h/NgH2Xwlp4KhCTwHjRL に対して
@benjojowhat CT ログに「ドメイン、ノンス」のハッシュ(domain, nonce)しかなく、ノンスが CT 包含証明の一部だったらどうでしょう?
ベンジョー
返信 2025年12月13日 14:53 +0000
https://mstdn.io/users/wolf480pl/statuses/115712376924287199 に対して
@wolf480pl 証明書透明性ログの目的は、外部観測者が CA の証明書とポリシーを完全に二重チェックできるようにすることです。これを壊せば、全体システムが深刻に脆弱になり、エンドツーエンドで検証が難しくなります
返信 2025年12月13日 15:55 +0000
https://benjojo.co.uk/u/benjojo/h/lPLWBh3YCbFJBH4Dt6 に対して
@benjojo え、私は自分のドメインで誰が証明書を発行しているか知りたいので、CA が発行した全証明書を確認し、ドメイン情報が必要になることもあると推測しています… ドメイン列挙ができる点は残念ですが、ゼロ知識証明を追加するのは複雑すぎたのでしょう
ベンジョー
返信 2025年12月13日 18:00 +0000
https://mstdn.io/users/wolf480pl/statuses/115713071072619432 に対して
@wolf480pl 正直言ってドメインはそれほど秘密ではありません。もしそれに依存しているなら、何かがおかしいでしょう。「ワイルドカード証明書」を使えば多くの問題を回避できます
返信 2025年12月13日 18:07 +0000
https://benjojo.co.uk/u/benjojo/h/pyX28McwZyTh14hy55 に対して
@benjojobut では NSEC3 を使う理由がないのはなぜ?
ベンジョー
返信 2025年12月13日 23:29 +0000
https://mstdn.io/users/wolf480pl/statuses/115713588719701003 に対して
@wolf480pl 正直言って DNSSEC(極端に限られたケースを除く)や NSEC3 を使う理由はほとんどありません
返信 2025年12月12日 21:09 +0000
https://benjojo.co.uk/u/benjojo/h/Gxy2qrCkn1Y327Y6D3 に対して
@benjojo Web サーバーログを観察すると、新しい CT エントリを最も速く拾うものが分かるのは興味深いです