It seems that OpenAI is scraping [certificate transparency] logs

2025/12/15 22:48

It seems that OpenAI is scraping [certificate transparency] logs

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

以下は、提示された事実に厳密に従い、すべてのタイムスタンプを含め、推測的な表現を避けた練縮版です。


Summary

Benjojo は 2025 年 12 月 12 日 20:46 +0000 に、

autoconfig.benjojo.uk
の新しい TLS 証明書を発行した後、Certificate Transparency(CT)ログでユーザーエージェント「OAI‑SearchBot/1.3」から
/robots.txt
への HTTP GET リクエストが観測されたと投稿しました。サーバーは 404 ステータスと約 162 µs の処理時間を記録しています。Wolf480pl は 20:57 +0000 に返信し、こうしたボット活動は長年一般的であること、OpenAI が特に関与しているかどうかを疑問視しました。Benjojo は 21:10 +0000 に回答し、そのリクエストが検索エンジンのインデックス化を引き起こしたと確認しました。

2025 年 12 月 13 日、Wolf480pl は CT ログでドメイン名をハッシュ化(

hash(domain, nonce)
)することで列挙リスクを減らすことを提案し、Benjojo はその日の後半に CT ログが CA 証明書とポリシーの外部検証を可能にする役割を強調しました。Wolf480pl はさらに証明書発行者の識別とドメイン列挙のデメリットについて議論し、Benjojo はドメインは公開されており、ワイルドカード証明書が露出を軽減すると反論しました。会話では DNSSEC/NSEC3 も触れられ、Benjojo は限界ケース以外での価値について疑問を呈しました。

Jamesog は 2025 年 12 月 12 日 21:09 +0000 にコメントし、新しい CT エントリを最速で拾うエンティティがどこかをサーバーログから把握できると述べました。


このバージョンでカバーされた主なポイント

  • すべての投稿の日付と時刻。
  • ログエントリーに含まれる具体的なユーザーエージェント、ステータスコード、および処理時間。
  • 参加者(Benjojo、Wolf480pl、Jamesog)の全貢献。
  • ハッシュ化、ワイルドカード証明書、DNSSEC/NSEC3 に関する技術的議論を推測的結論なしに記述。

本文

ベンジョー

投稿 2025年12月12日 20:46 +0000


笑。

新しい TLS 証明書を発行したら、OpenAI が CT ログをスクレイピングしているようで、ほぼ即座に応答が返ってきました。これは「スクレイピングの対象」を推測できるほどです:

Dec 12 20:43:04 xxxx xxx[719]:
l=debug
m="http request"
pkg=http
httpaccess=
handler=(nomatch)
method=get
url=/robots.txt
host=autoconfig.benjojo.uk
duration="162.176µs"
statuscode=404
proto=http/2.0
remoteaddr=74.7.175.182:38242
tlsinfo=tls1.3
useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36; compatible; OAI-SearchBot/1.3; robots.txt; +https://openai.com/searchbot"
referrr=
size=19
cid=19b14416d95

wolf480pl@mstdn.io

返信 2025年12月12日 20:57 +0000

https://benjojo.co.uk/u/benjojo/h/Gxy2qrCkn1Y327Y6D3 に対して
@benjojowp-login.php のボットは何年も前からそうしていたので、OpenAI がやっていないとは思えません


ベンジョー

返信 2025年12月12日 21:10 +0000

https://mstdn.io/users/wolf480pl/statuses/115708595554461422 に対して
@wolf480pl はい、そして「検索エンジン」を「種」する悪くない方法だと推測します


wolf480pl@mstdn.io

返信 2025年12月13日 12:59 +0000

https://benjojo.co.uk/u/benjojo/h/NgH2Xwlp4KhCTwHjRL に対して
@benjojowhat CT ログに「ドメイン、ノンス」のハッシュ(domain, nonce)しかなく、ノンスが CT 包含証明の一部だったらどうでしょう?


ベンジョー

返信 2025年12月13日 14:53 +0000

https://mstdn.io/users/wolf480pl/statuses/115712376924287199 に対して
@wolf480pl 証明書透明性ログの目的は、外部観測者が CA の証明書とポリシーを完全に二重チェックできるようにすることです。これを壊せば、全体システムが深刻に脆弱になり、エンドツーエンドで検証が難しくなります


wolf480pl@mstdn.io

返信 2025年12月13日 15:55 +0000

https://benjojo.co.uk/u/benjojo/h/lPLWBh3YCbFJBH4Dt6 に対して
@benjojo え、私は自分のドメインで誰が証明書を発行しているか知りたいので、CA が発行した全証明書を確認し、ドメイン情報が必要になることもあると推測しています… ドメイン列挙ができる点は残念ですが、ゼロ知識証明を追加するのは複雑すぎたのでしょう


ベンジョー

返信 2025年12月13日 18:00 +0000

https://mstdn.io/users/wolf480pl/statuses/115713071072619432 に対して
@wolf480pl 正直言ってドメインはそれほど秘密ではありません。もしそれに依存しているなら、何かがおかしいでしょう。「ワイルドカード証明書」を使えば多くの問題を回避できます


wolf480pl@mstdn.io

返信 2025年12月13日 18:07 +0000

https://benjojo.co.uk/u/benjojo/h/pyX28McwZyTh14hy55 に対して
@benjojobut では NSEC3 を使う理由がないのはなぜ?


ベンジョー

返信 2025年12月13日 23:29 +0000

https://mstdn.io/users/wolf480pl/statuses/115713588719701003 に対して
@wolf480pl 正直言って DNSSEC(極端に限られたケースを除く)や NSEC3 を使う理由はほとんどありません


jamesog@mastodon.soc..

返信 2025年12月12日 21:09 +0000

https://benjojo.co.uk/u/benjojo/h/Gxy2qrCkn1Y327Y6D3 に対して
@benjojo Web サーバーログを観察すると、新しい CT エントリを最も速く拾うものが分かるのは興味深いです

同じ日のほかのニュース

一覧に戻る →

2025/12/16 6:37

Fix HDMI-CEC weirdness with a Raspberry Pi and a $7 cable

## Japanese Translation: > **概要:** > Samsung S95B TV(論理アドレス 0x00)、Denon AVR‑X1700H(0x05)、Apple TV、PS5、Xbox Series X、Nintendo Switch 2、および `/dev/cec0` をリッスンする Raspberry Pi 4 が含まれるホームシアター構成で、テレビの入力にのみ切り替えるコンソールが原因となるオーディオルーティング問題を著者は解決します。 > Pi(論理アドレス 0x01)から AVR に「System Audio Mode Request」パケット(`15:70:00:00`)を送信することで、受信機は ARC を有効化し、すべてのコンソールオーディオをテレビではなく自身経由でルーティングします。 > 著者は Python スクリプト `cec_auto_audio` でこれを実装しており、長時間稼働する `cec-client -d 8` を起動し、TRAFFIC 行から Active Source イベント(オペコード 0x82)を解析し、以前に Set System Audio Mode(オペコード 0x72)が検出されていない場合に毎回ウェイク時にパケットを送信します。 > スクリプトは systemd サービス `cec_auto_audio.service` としてパッケージ化され、起動時に開始されます。これにより、多層の HomeKit/Eve オートメーションと比べて低レイテンシで軽量な代替手段を提供します。 > トラブルシューティングガイドには、スキャン(`echo "scan" | cec-client -s`)、トラフィック監視(`cec-client -m`)、および欠落オペコード(0x82, 0x84, 0x70, 0x72)の良いケースと悪いケースの比較が含まれます。 > 残るエッジケースとして、コンソールのスタンバイがテレビチューナーを起動させる場合や HomeKit オートメーションがアクティブなソースなしでテレビをオンにする場合などには、追加の状態機械ロジックが必要になる可能性があります。著者はコミュニティメンバーに対し、より広範なトラブルシューティングのために CEC パケットトレースを共有してもらうよう呼びかけています。

2025/12/11 8:54

Nature's many attempts to evolve a Nostr

## Japanese Translation: **要約** 人気のあるアプリケーションの普遍的な設計は、ユーザーのデータと暗号鍵を所有する単一クラウドサーバーに集中しています(「あなたの鍵がないなら、あなたのデータではない」)。この中央集権化は封建制や寡占構造を生み出します。サーバーは橋を上げてユーザーを切り離す城のような存在です。フェデレーション(例:Mastodon、Matrix)はサーバー間で通信できるようにしますが、鍵とデータは依然としてサーバーの管理下にあり、ネットワーク理論はそのようなフェデレートシステムがスケールフリー分布へ収束し、支配的なハブを生み出すと予測しています。これはGmail/ProtonMail のメール寡占や Facebook Threads の ActivityPub ノードが Fediverse を支配する現象として観察されています。 セルフホスティングは居住IPの禁止やインフラコストにより多くのユーザーが個人サーバーから離れるため、非実用的になります。ピアツーピアネットワークはユーザー所有鍵を提供しますが、拡張性、信頼できないノード、スーパーpeer の中央集権化、複雑な最終的一致メカニズム、および長い多ホップルーティング遅延に悩まされます。 Nostr プロトコルは「リレーモデル」を提案します。単純で信頼できないリレーは署名されたメッセージを転送するだけで、相互通信しません。これにより \(N^2\) スケーリング問題を回避します。ユーザーは数個(通常 2–10)のリレーユーザーに購読し、自分のデータと鍵を完全に制御でき、リレーが失敗または停止した場合でも信頼性高く離脱できます。広く採用されれば、これはユーザーに真の所有権と単一点障害への耐久性を与え、中央集権サーバーに依存する企業に対し、よりユーザー中心で分散型アーキテクチャとの競争を強いるでしょう。これにより、ソーシャルメディアやメッセージングは真の分散モデルへと再構築される可能性があります。

2025/12/12 15:47

“Are you the one?” is free money

## 日本語訳: --- ## 要約 この記事は、番組「Are You the One?」の参加者が数学モデルを用いて、最終エピソード前にほぼ確実に全ての正しいカップルを推測できる方法を説明しています。戦略的にトゥルーブースとエピソード終了時のマッチアップデータを活用することで達成されます。 - **ゲーム設定**:10人の男性と10人の女性が、色でのみ明らかになる10組の完璧なペアに分けられます。参加者はすべてのペアを正しく推測し、100万ドルを獲得します。 - **情報源**: - *トゥルーブース* は特定のペアが成立しているかどうか(バイナリ結果)を確認します。 - *エピソードマッチアップ* はそのラウンドで正しいペアの総数のみを明らかにします。 「ブラックアウト」エピソード(0件マッチ)は、そのラウンド内のすべてのペアについて否定的な情報を提供し、複数のトゥルーブースと同等の効果があります。 - **モデル**:著者は OR‑Tools の最適化フレームワークを構築し、シーズン開始時に約400万件の有効マッチング(≈4 百万)を追跡し、各イベント後に更新します。シーズン1ではエピソード8でモデルが「解読」されました。 - **情報理論**:各イベントは約1〜1.6ビットの情報量を提供します。シミュレーションでは ~1.23 bits/イベント、実際の番組データでは ~1.39 bits/イベント、最適戦略で最大 1.59 bits/イベントが得られます。全検索空間は約22ビット(10!)を必要とするため、完璧な戦略には平均して約1.1 bits/イベントが十分です。 - **結果**: - ランダムペアリングでは、カップル数に関係なく平均正解スコアは約1になります。 - 100シーズンのランダムシミュレーションでモデルを使用した成功率は74%でしたが、情報理論戦略では98%に上昇します。 - 実際の番組データ(7シーズン)では71%の成功率と約1.39 bits/イベントとなり、純粋なランダムよりわずかに優れていますが、理論的最適値にはまだ届きません。 - **今後の作業**:著者はインタラクティブなウェブツールを開発予定で、ユーザーが異なる戦略を試し、必要な情報ビット数を確認し、実際のデータとパフォーマンスを比較できるようにします。 **影響** 本研究は参加者やプロデューサーに対して効率的な質問設計のための具体的なアルゴリズムフレームワークを提供し、エンターテインメントにおける組合せ最適化とベイズ推論の実用例を示すとともに、研究者にリアルワールドケーススタディとしてさらなる探求の機会を与えます。

It seems that OpenAI is scraping [certificate transparency] logs | そっか~ニュース