消えたが忘れられず:死のウェブを取り戻す

2026/07/01 6:48

消えたが忘れられず:死のウェブを取り戻す

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

最も重要な教訓は、体系的なデジタル保存が、時間とともにウェブコンテンツが消えていく広範な「リンクロット(リンクの腐敗)」を効果的に逆転させることができるという点にあります。最近の研究によると、その深刻さは大きく変動しており、ピュー・リサーチ・センターによる分析では 10 年後にアクセス不能になったページは 25–38% に達した一方、Ahrefs とオールドドミニオン大学の分析では破損リンクの割合は 65% から 66.5% と報告されています。アーカイブであるインターネット・アーカイブの「ウェイバックマシーン」のような機関は、広範なデータセットにおいて失われたリソースの約 13% から 16% を成功裏に救済しており、具体的プロジェクト(例:ニューヨークタイムスarchive の再作成への取り組み)では救助率が最大 96% に達しています。JavaScript、有料壁、ログイン壁といった技術的障壁が完全な保存を妨げていたとしても、これらのイニシアチブはデータのエロージョンを著しく緩和しています。将来の戦略としては、MediaCloud や GDELT といったグローバルなソースからのフィードを取り込み、IndexNow のようなイニシアチブに参加し、「Save Page Now」サービスを通じて公衆の参加を促すことに向けられています。さらに、Turn All References Blue (TARB) のような自動化プロジェクトは、既にウィキサイト上で 3000 万以上の破損したリンクを修復しています。集合的取り組みを促進し、発見性を向上させることで、デジタルコミュニティは歴史的ウェブサイトのアクセス可能さを確保し、ウェブの豊かな過去が沈黙へと消えないように目指しています。この仕事は、Dr. Sawood Alam が IIPC WAC 2025 と WADL 2025 で発表されました。協力者としてピュー・リサーチセンターとオールドドミニオン大学に謝意を表します。

本文

ウェブページの消滅とウェイバックマシネによる救済:リンクロッター調査から見た「失われたウェブ」

1. オンライン情報の消失という現実

ピュー・リサーチ・センターや他の研究機関が公表した調査結果により、インターネット上の情報がいかに急速に消え去っているかが明らかになっています。

  • 閲覧不能なページの割合
    • ピュー・リサーチ・センターの調査(2024 年)では、10 年前に存在していたウェブページの約 38% が現在は閲覧できないと報告されています。
    • また、「2013 年から 2023 年の期間中に一度でも存在したすべてのウェブページ」を対象とした分析では、その 四分の一 が現在アクセスできなくなっていることが判明しました。
  • 他研究機関のデータ
    • Ahrefs(SEO エージェント): 過去 9 年間のサイトへのリンクのうち、少なくとも 66.5% が無効であると発表済み。
    • Jonathan Zittrain(『The Atlantic』誌論文): ニューヨーク・タイムズ記事の外部リンク約 200 万件中、深層リンクの 25% が破損していることを指摘。また、1998 年からの古くからのリンクの 72% は既に無効であることも示唆されている。
    • ODU(旧ドミニオン大学): ウェイバックマシネから抽出された約 2,730 万 URL のうち、2023 年のチェック時点で 65% がライブウェブ上で見当たらない(無効)と報告。

これらの研究は共通して「時間経過とともに無効化されるリンクの数が増え続けている」という結論に達しています。一方、一部の研究ではウェブアーカイブの存在や利用について過小評価する傾向が見られます。

2. ウェイバックマシネによる救済効果

本稿では、ウェイバックマシネ(Web Archive)が「失われたウェブ」をどの程度回復できているかを検証しました。調査対象の無効リンクに対し、ウェイバックマシネが有効な代替コンテンツとして機能している割合は以下の通りです。

調査名年次サンプル数無効率救済率
(ウェイバックマシネ内保存)
ピュー・リサーチ・センター(全体)2024540 万26%16%
ピュー・リサーチ・センター(一般)2024100 万27%13%
zittrain (NYTimes)20218.8 万40%38%
※再構築データ
ODU (NYPW)20242,730 万65%65%

救済の詳細分析

  • 全体データセットでの実績(ピュー・リサーチ・センター、540 万 URL)

    • ウェブアーカイブを考慮しない場合、約 四分の一 の URL は「アクセス不能」または「Dead」とみなされました。
    • ウェイバックマシネを活用することで、この比率は 1/4 → 1/10 に減少しました(約 72% がアーカイブ内で保存)。
      • そのうち 56% はライブウェブでまだ生存しているページからアーカイブ済み。
      • 16% はライブウェブでは死亡しているが、アーカイブにより「救済」されたもの。
    • 現在 Alive だがアーカイブされていない URL(Endangered)は 18% であり、これが消滅する恐れがあります。
  • 年代別傾向(ピュー・データセットの一般サブセット、100 万 URL)

    • 2013 年のデータ: Dead URL の約 38% が救済されており、全体で見れば失われていたページの約 15% を挽回しています。
    • 累積的な損失: 一般サンプル全体の累積的な Dead URL の四分の一のうち、ほぼ半分がウェイバックマシネで救済されています。
    • 最新データの特記事項: 直近 3 年は救済率がほぼ 100% に見えますが、これは Common Crawl データの取り込み方針が自動的にウェイバックマシネに反映されたためという副次的要因です。

3. その他のケーススタディと課題

特定のデータセットを用いた詳細な分析も以下の通りです。

  • NYTimes 外部リンク研究(zittrain)

    • 2013 年の NYTimes ページからの外部リンク約 8.8 万件中、40% が Dead と判明。
    • これらのうち 96% がウェイバックマシネ内にアーカイブされており、完全な消滅(Vanished)はわずか 2% です。
    • ※注意: オリジナルのサンプルではなく「既にアーカイブされたページ」から抽出したため、アーカイブされやすいバイアスが内在しており、絶対数としての救済率は過大評価されている可能性があります。
  • ODU の大規模調査(2,730 万 URL)

    • サンプルの多くは DNS レゾリューションすらできない状態でドメイン自体が登録されていない場合もありました。
    • すべての Dead URL がウェイバックマシネ内にあるため、「救済率」は 100% と解釈できますが、アーカイブ前の完全な損失状況(Vanished)については算出できません(データ源がアーカイブ内部であるため)。

4. 総括と今後の方向性

すべてのリンクロッター調査は「ウェブは脆弱であり、リソースの死滅が進んでいる」ことを示しています。その一方で、ウェイバックマシネは以下の役割を果たしています。

  • 知識グラフの分断防止: Dead ウェブを救済し、リンク切れによる情報の孤立を防ぐ。
  • 文化的記録の保存: 脆弱な文化記録(Vanishing Culture)を守り続ける決定的な役割を担う。

課題と限界

完全な蘇生は困難ですが、以下の制約があります。

  • 技術的・物理的制限: リソース不足、JavaScript 依存ページ、ボットブロック、ログイン壁、有料コンテンツ(Paywall)、ディープウェブへのアクセス不可など。
  • 発見の遅れ: ウェブページの更新直後にリンクを発見する仕組み(IndexNow)や、自動保存サービス「Save Page Now (SPN)」への参画などが急務です。

解決に向けた取り組み

  • Turn All References Blue (TARB): Wiki など数百のサイトにおいて、3,000 万を超える破損リンクを修正済み(増加中)。
  • 代替ソースの活用: MediaCloud, GDELT, Wikipedia EventStream のフィード取り込みなど。
  • コミュニティへの呼びかけ: 「何か見かけたら、何かを保存せよ!」という運動の推進。

出典: IIPC WAC 2025 / WADL 2025
著者: Dr. Sawood Alam(インターネット・アーカイブ ウェイバックマシネ リードリサーチャー)

同じ日のほかのニュース

一覧に戻る →

2026/07/04 7:40

巨大な木は問題なく水を上枝に送ることができます。

## Japanese Translation: エクセター大学とカーディフ大学が主導する新研究で、Science誌に発表された内容により、世界最高位の熱帯ティトロカルプ属(Dipterocarp)の樹木は、極めて高い位置での水分輸送課題を完全に補償できることが明らかになった。アジアの雨林を支配し、80 メートルを超える高さまで成長する巨大なティトロカルプ属の木々は、より低い木々に比べて旱魃に対する感受性を示さない。これは進化した水理学的適応によるものである。本研究は、2023 年~2024 年の激しいエルニーニョ現象を背景としてマレーシア・ボルネオで行われたものであり、7 メートルから 71 メートルの幅を持つ樹木が旱魃を通じて幹の成長速度を維持したことが見出された。これは、重力と導管の長さが高大型種における光合成および成長を制限するという長年の信念に挑戦するものである。より高いティトロカルプ属の木々は、地面付近で広く水分を運ぶ導管を持つことと、萎れる前により大きな水ストレスに耐えるように適応した葉を持つことによりこれを実現する。これらの適応は、80 メートル以上高く水を移動させるために必要な極めて低い圧力の下でも液体水の形態を維持することを可能にする。これらの結果は、特にアジアの地上バイオマス炭素の半分を貯蔵するティトロカルプ属森林において重要であり、水理学的システムが弱く高大型種では旱魃による急速な死に瀕するという以前の理論を矛盾させるものである。共同著者であるパウロ・ビッテンコート博士は、これらの希少樹木がマレーシア・ボルネオにおける生態学的中心性であることを強調しているが、研究者らは同様の特性を他の高大型樹種においても検討すべきであると指摘している。研究チームには、マレーシア、イギリス、チェコ共和国、ドイツ、スペイン、ブラジル、アメリカ合衆国の機関が含まれており、資金供与は自然環境研究評議会(NERC)からのものである。今後の研究では、ティトロカルプ属を超えた水理学的システムと旱魃耐性の調査を通じて、全球的な旱魃リスク評価および保全戦略を精査していく予定である。

2026/07/04 7:33

Leanstral 1.5:全データに対する証明の豊富さを実現

## Japanese Translation: Leanstral 1.5 は、60 億のアクティブパラメータと全パラメータとして 1190 億を持ち、競合製品のごく一部のコストで最先端のパフォーマンスを達成する無料の Apache-2.0 ライセンスモデルです。このモデルは miniF2F でサチュレーション(検証セットとテストセットで両方 100%)を達成し、PutnamBench の問題のうち 672 問中 587 問を解決します(25k トークンの予算では 44 問から、4M トークンの予算では 587 問へ向上)。FATE-H ベンチマークでは 87% の精度、FATE-X ベンチマークでは 34% の精度を達成しています。中学習(mid-training)、監督微調整、CISPO を用いた強化学習、特定の定理に対する安全性チェックを経て訓練された Leanstral 1.5 は、複数回のターンにわたる定理証明および生ファイルシステムでのコードエージェントにおけるエージェント型証明工学において卓越しています。ターゲットとなる定理のリストを用いて SafeVerify のフォーク版で検証され、このモデルは問題あたり約 $4 のコストがかかります(Seed-Prover の $300 以上や Aleph Prover の $54–68 に比べて著しく低く)、かつ大きなトークン予算と共によくスケーリングします。実際の運用では、オープンソースライブラリにおける微細なバグを検出し、57 リポジトリにわたって以前に知られていなかった 5 つのバグを発見しました。その例として、datrs/varinteger ライブラリにおいて `(value + 1)` が `Std.U64.MAX` 入力に対してオーバーフローした整数オーバーフローがありました。このモデルは Hugging Face で重みファイルおよび無料の API エンドポイント(leanstral-1-5)として利用可能です。ユーザーは Mistral Vibe(`uv tool install mistral-vibe`)で実行でき、Lean LSP MCP の設定をオプションで行うことで、その能力を活用し、高次の定理証明やバグ探索を行えるようにしながら、莫大なコストなしに動作させられます。

2026/07/04 6:49

AMD MI355X 上で GLM5.2 を実行し、コストは Blackwell よりも 2 倍以上低減してノードあたり 2626 トークン/秒を達成

## Japanese Translation: AMD の新しい Instinct MI355X アクセラレータは、NVIDIA の B シリーズ GPU に対して魅力的な代替手段を提供しており、B300 と比較して約 2.75 倍安い GPU 単価で同様のハードウェア仕様を備えています。また、B200 には 2 倍以上安いです。歴史的に CUDA エコシステムを通じて「day-0」の優位性を保持してきた NVIDIA ですが、AMD はこの格差を急速に縮めています。ROCm は当初、MI355X 上で GLM-5.2 のような frontier モデルに対してネイティブなサポートがなかったものの、ターゲットされた最適化によって B200 のノードあたり性能の約 80% を対価の少なさで実現しました。主要なブリークスルーとしては、AMD Quark を用いて損失のない MXFP4 量子化を実現し(公式の FP8 の制限を上回る)、出力劣化を伴わずに堅牢なネイティブ MXFP4 サポートのために sglang を選択し、モジュールプレフィックス不一致を修正したり、ROCm メタデータ カーネルガードを追加したりする特定のパッチを適用することで推測デコーディングの利点を解放(約 3 倍)した点があります。戦略的な構成チューニング(例えば TP4×DP2 への移行)や fp4 シェイプ用の MoE カーネルの最適化を通じて、カスタムカーネルを書かずにシングルノードデプロイメントで 2626 tok/s/node という SOTA の総通量を実現しました。この戦略は推論ワークロードに対して有効であり、AMD が NVIDIA の市場的地利を成功裏に侵食し、低コストで高計算能力を実現していることを示しています。また、マルチノードスケーリングに関する課題がまだ残るものの、よりバランスの取れた競争環境が育まれていることを意味します。