
2026/07/01 6:48
消えたが忘れられず:死のウェブを取り戻す
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
最も重要な教訓は、体系的なデジタル保存が、時間とともにウェブコンテンツが消えていく広範な「リンクロット(リンクの腐敗)」を効果的に逆転させることができるという点にあります。最近の研究によると、その深刻さは大きく変動しており、ピュー・リサーチ・センターによる分析では 10 年後にアクセス不能になったページは 25–38% に達した一方、Ahrefs とオールドドミニオン大学の分析では破損リンクの割合は 65% から 66.5% と報告されています。アーカイブであるインターネット・アーカイブの「ウェイバックマシーン」のような機関は、広範なデータセットにおいて失われたリソースの約 13% から 16% を成功裏に救済しており、具体的プロジェクト(例:ニューヨークタイムスarchive の再作成への取り組み)では救助率が最大 96% に達しています。JavaScript、有料壁、ログイン壁といった技術的障壁が完全な保存を妨げていたとしても、これらのイニシアチブはデータのエロージョンを著しく緩和しています。将来の戦略としては、MediaCloud や GDELT といったグローバルなソースからのフィードを取り込み、IndexNow のようなイニシアチブに参加し、「Save Page Now」サービスを通じて公衆の参加を促すことに向けられています。さらに、Turn All References Blue (TARB) のような自動化プロジェクトは、既にウィキサイト上で 3000 万以上の破損したリンクを修復しています。集合的取り組みを促進し、発見性を向上させることで、デジタルコミュニティは歴史的ウェブサイトのアクセス可能さを確保し、ウェブの豊かな過去が沈黙へと消えないように目指しています。この仕事は、Dr. Sawood Alam が IIPC WAC 2025 と WADL 2025 で発表されました。協力者としてピュー・リサーチセンターとオールドドミニオン大学に謝意を表します。
本文
ウェブページの消滅とウェイバックマシネによる救済:リンクロッター調査から見た「失われたウェブ」
1. オンライン情報の消失という現実
ピュー・リサーチ・センターや他の研究機関が公表した調査結果により、インターネット上の情報がいかに急速に消え去っているかが明らかになっています。
- 閲覧不能なページの割合
- ピュー・リサーチ・センターの調査(2024 年)では、10 年前に存在していたウェブページの約 38% が現在は閲覧できないと報告されています。
- また、「2013 年から 2023 年の期間中に一度でも存在したすべてのウェブページ」を対象とした分析では、その 四分の一 が現在アクセスできなくなっていることが判明しました。
- 他研究機関のデータ
- Ahrefs(SEO エージェント): 過去 9 年間のサイトへのリンクのうち、少なくとも 66.5% が無効であると発表済み。
- Jonathan Zittrain(『The Atlantic』誌論文): ニューヨーク・タイムズ記事の外部リンク約 200 万件中、深層リンクの 25% が破損していることを指摘。また、1998 年からの古くからのリンクの 72% は既に無効であることも示唆されている。
- ODU(旧ドミニオン大学): ウェイバックマシネから抽出された約 2,730 万 URL のうち、2023 年のチェック時点で 65% がライブウェブ上で見当たらない(無効)と報告。
これらの研究は共通して「時間経過とともに無効化されるリンクの数が増え続けている」という結論に達しています。一方、一部の研究ではウェブアーカイブの存在や利用について過小評価する傾向が見られます。
2. ウェイバックマシネによる救済効果
本稿では、ウェイバックマシネ(Web Archive)が「失われたウェブ」をどの程度回復できているかを検証しました。調査対象の無効リンクに対し、ウェイバックマシネが有効な代替コンテンツとして機能している割合は以下の通りです。
| 調査名 | 年次 | サンプル数 | 無効率 | 救済率 (ウェイバックマシネ内保存) |
|---|---|---|---|---|
| ピュー・リサーチ・センター(全体) | 2024 | 540 万 | 26% | 16% |
| ピュー・リサーチ・センター(一般) | 2024 | 100 万 | 27% | 13% |
| zittrain (NYTimes) | 2021 | 8.8 万 | 40% | 38% ※再構築データ |
| ODU (NYPW) | 2024 | 2,730 万 | 65% | 65% |
救済の詳細分析
-
全体データセットでの実績(ピュー・リサーチ・センター、540 万 URL)
- ウェブアーカイブを考慮しない場合、約 四分の一 の URL は「アクセス不能」または「Dead」とみなされました。
- ウェイバックマシネを活用することで、この比率は 1/4 → 1/10 に減少しました(約 72% がアーカイブ内で保存)。
- そのうち 56% はライブウェブでまだ生存しているページからアーカイブ済み。
- 16% はライブウェブでは死亡しているが、アーカイブにより「救済」されたもの。
- 現在 Alive だがアーカイブされていない URL(Endangered)は 18% であり、これが消滅する恐れがあります。
-
年代別傾向(ピュー・データセットの一般サブセット、100 万 URL)
- 2013 年のデータ: Dead URL の約 38% が救済されており、全体で見れば失われていたページの約 15% を挽回しています。
- 累積的な損失: 一般サンプル全体の累積的な Dead URL の四分の一のうち、ほぼ半分がウェイバックマシネで救済されています。
- 最新データの特記事項: 直近 3 年は救済率がほぼ 100% に見えますが、これは Common Crawl データの取り込み方針が自動的にウェイバックマシネに反映されたためという副次的要因です。
3. その他のケーススタディと課題
特定のデータセットを用いた詳細な分析も以下の通りです。
-
NYTimes 外部リンク研究(zittrain)
- 2013 年の NYTimes ページからの外部リンク約 8.8 万件中、40% が Dead と判明。
- これらのうち 96% がウェイバックマシネ内にアーカイブされており、完全な消滅(Vanished)はわずか 2% です。
- ※注意: オリジナルのサンプルではなく「既にアーカイブされたページ」から抽出したため、アーカイブされやすいバイアスが内在しており、絶対数としての救済率は過大評価されている可能性があります。
-
ODU の大規模調査(2,730 万 URL)
- サンプルの多くは DNS レゾリューションすらできない状態でドメイン自体が登録されていない場合もありました。
- すべての Dead URL がウェイバックマシネ内にあるため、「救済率」は 100% と解釈できますが、アーカイブ前の完全な損失状況(Vanished)については算出できません(データ源がアーカイブ内部であるため)。
4. 総括と今後の方向性
すべてのリンクロッター調査は「ウェブは脆弱であり、リソースの死滅が進んでいる」ことを示しています。その一方で、ウェイバックマシネは以下の役割を果たしています。
- 知識グラフの分断防止: Dead ウェブを救済し、リンク切れによる情報の孤立を防ぐ。
- 文化的記録の保存: 脆弱な文化記録(Vanishing Culture)を守り続ける決定的な役割を担う。
課題と限界
完全な蘇生は困難ですが、以下の制約があります。
- 技術的・物理的制限: リソース不足、JavaScript 依存ページ、ボットブロック、ログイン壁、有料コンテンツ(Paywall)、ディープウェブへのアクセス不可など。
- 発見の遅れ: ウェブページの更新直後にリンクを発見する仕組み(IndexNow)や、自動保存サービス「Save Page Now (SPN)」への参画などが急務です。
解決に向けた取り組み
- Turn All References Blue (TARB): Wiki など数百のサイトにおいて、3,000 万を超える破損リンクを修正済み(増加中)。
- 代替ソースの活用: MediaCloud, GDELT, Wikipedia EventStream のフィード取り込みなど。
- コミュニティへの呼びかけ: 「何か見かけたら、何かを保存せよ!」という運動の推進。
出典: IIPC WAC 2025 / WADL 2025
著者: Dr. Sawood Alam(インターネット・アーカイブ ウェイバックマシネ リードリサーチャー)