
2025/12/14 6:18
Recovering Anthony Bourdain's (really) lost Li.st's
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
著者は、Greg TeChnoLogY の Anthony Bourdain リストから欠落した項目を復元するために、Common Crawl インデックスを照会する Python 3.14.2 スクリプト commoncrawl_search.py を作成しました。サイト全体をダウンロードする代わりに、スクリプトは検索語句と一致する URL プレフィックスのみを返す単一のインデックスリクエストを送信し、帯域幅を大幅に削減しクエリ速度を向上させます。この手法は標準的なオープンソース慣行に従っており、アーカイブ済みデータセットから失われた Web コンテンツを復旧する以前の試みを継承しています。今後はより複雑な検索に対応できるようツールを拡張し、リスト項目のさらなる自動復元を実現する可能性があります。成功すれば、研究者やファンがアクセスできるようになり、大規模公開アーカイブからデータを抽出する実用的な方法を示し、将来の Web 保存プロジェクトに情報を提供できるでしょう。
本文
少なくとも2日前
Greg TeChnoLogY の Lost Li.sts を読んでみて
Greg が公開した「失われたアントニ―・ボルダインのリスト」を見て、何かが復元できるのではないかと考えてしまいました。
私はキャリアのほぼ全期間をセキュリティとクローリングに費やしてきました。
プロプライエタリなストレージへアクセスする権限はありませんが、公開されているクローラアーカイブから何か見つけられないかと思ったのです。
Common Crawl
インターネット・アーカイブに Greg が発表した部分的リストがあるなら、Common Crawl もどうでしょう?
ドキュメントを読むと、Tony のリスト用のプレフィックスインデックスを取得し、サブパスを grep するだけで十分そうです。
Claude の助けを借りて
を作成しました。commoncrawl_search.py
このスクリプトは指定したデータセットに対して一度だけインデックスリクエストを送り、ヒットがあれば公開 S3 バケットから取得します。
HTML ファイルは小さくてシンプルなので、最初よりも実行しやすいです。
python commoncrawl_search.py <prefix> # 例: /search/tony-bourdain/
Python 3.14.2 を用意して
requirements.txt を pip‑install した後、上記コマンドを実行してください。以下に私が使ったコマンドと、結果を整形する手作業の一部を載せます。
注意
画像は失われており、他の手段も失敗しました。あとで再試行します。
復元できなかった項目
Greg のページから各エントリを順に確認し、Common Crawl に見つからなかったものを表にまとめました(別所に存在するはずです)。
| 項目 | 備考 |
|---|---|
| Cocaine | |
| True Detective | |
| Scripps‑Howard | |
| 「ウェイターが料理の説明を終えるより食べる方が時間がかかるディナー」 |
復元済みページ
Common Crawl から取得できなかったのは 1 ページだけ。
次にやること
この小さな考古学プロジェクトを楽しめました。少なくとも今回の取り組みで勝利と宣言できますか?
画像は見つけられず、CloudFront も消えてしまったので、今後は公開アーカイブを作成する準備ができています。 GitHub のリポジトリは誰でも参加可能です。
ご清聴ありがとうございました!