
2026/05/22 1:59
報道機関に対して、インターネットアーカイブの利用を制限する措置をとっています。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
2026年5月20日時点において、主要な米国ニュース発行者は、インターネット・アーカイブの自動クローラーに対するブロックを大幅に拡大しており、McClatchy、Tribune Publishing、Advance Local(証拠なしでスクレイピングが行われているにもかかわらず8月にハードブロックを開始)を含む340以上の地方および全国サイトにアクセスを制限しています。これは1月の241件から増加したものであり、この傾向はニューヨーク・タイムズなどのグローバル大手やブラジルのフォルハ・ド・サオパウロといった国際的パートナーの先行する動きを踏襲しています。発行者は主にAI企業が補償なしにコンテンツをスクレイピングすることを防ぎ、ライセンス交渉におけるレバレッジを強化するためにクローラーをブロックしています。また、インデペンデント・アウトレットも、チャットボットの回答中に未出典の情報が登場することを避けるためにボートを制限しています。主要な関与する発行者は、上位7大の地方ニュースグループのうち5社を所有しており、そのうち2社(MediaNews GroupとTribune Publishing)はヘッジファンドのアルデン・グローバル・キャピタルが制御しており、同社は2025年のエディトリアルでライセンスなしでのAI利用を侵害行為の一つとして位置付けています。ブロックリストはHeritrix、My-heritrix-crawler、Archive-It、ia_archiver-web.archive.orgを含むさまざまなボート識別子を標的にしています。その結果、研究者、歴史家、一般市民にとって一次資料へのアクセスが縮小する一方、ProQuestやLexisNexisなどの無料商業的代替手段も依然として限られています。これらの損失を緩和するため、インターネット・アーカイブはプレースフォワードの助成金を得て、ニュースルームを対象としたアーカイブ戦略トレーニングを開始しており、2027年末までに300の組織を支援することを目的としています。
本文
2026 年 5 月 20 日 午後 5 時 03 分
McClatchy、Advance Local、Tribune Publishing を含む大手新聞社や报业集团は、同財団法人が運営するアーカイブ用ボットへのアクセスを制限しています。
今年 1 月、Nieman Lab は、ニューヨーク・タイムズ、ザ・ガーディアン、USA Today Co. を含む大手新聞出版企業が、AI 企業による同財団のレポジトリからのデータスクレイピング(自動収集)を懸念し、インターネット・アーカイブへのアクセスブロックを開始したと報じました。その際、Nieman Lab に連絡したどの出版社も、「Wayback Machine から既に自社コンテンツが AI 企業によってスクレイピングされている」という事実を確認していないと述べています。しかし、私たちが記事を公開して以来の 5 ヶ月間で、インターネット・アーカイブへのブロックを導入しているニュースサイトの数是一直に増え続けています。圧倒的に多いのは地方新聞局です。
我々の新しい分析によれば、米国国内に所在する 340 以上の地方紙が、現在、インターネット・アーカイブによる自社記事の保存アクセスを制限しています。私たちが調査したサンプルサイトのうち、多くは米国最大の 7 つの地方紙出版企業のうち 5 社(USA Today Co.、McClatchy、Advance Local、MediaNews Group、Tribune Publishing)傘下のものです。後者の 2 つは、どちらも「秃鹫ヘッジファンド」と呼ばれている Alden Global Capital の子会社です。
世界中の研究者・歴史家・市民が、地方紙のウェブアーカイブを業務に活用していますが、「インターネット・アーカイブのウェブクローラーへのブロック措置は、新聞コンテンツを長期的にキャプチャして保存する最も有効な方法の一つを脅かしています」と、ミシガン大学の図書館科学者である Edward McCain 氏は述べています。「現在であればある程度の回避策がありますが、長期的には、過去と未来を理解するための一次史料における重要なリンクを弱めることになります」。
現場のジャーナリストたちも、Wayback Machine の地方紙アーカイブを頻繁に利用しています。直近 1 ヶ月間、新聞メディア各社がインターネット・アーカイブによる記事保存を許可するよう求めるオンライン署名運動が展開されています。「ニューヨーク州ロックランド、スーリバン、およびロックランド郡という広範な地域内でニュースを担当していますが、もはや存在していない、あるいは『ゾンビ化』したメディア outlets の過去の新聞記事のアーカイブデータを多大に依存する必要があります」と、The Monroe Gazette ニュースレターの編集者 B.J. Mendelson 氏は、200 人以上のジャーナリストによる署名のある最近の請願書で書きました。「インターネット・アーカイブがなければ、私の業務は極めて困難になります」。
出版社からの懸念に対し、Wayback Machine はサイトへの悪用を最小化するための取り組みを強調しており、大量ダウンロードを制限するシステムの導入や、Cloudflare などのベンダーと連携してボット活動の監視を行うなどしています。「多くの出版社と対話を続けており、彼らの懸念に耳を傾ける機会をありがたく受け止めたい」と、Wayback Machine の創設者である Mark Graham 氏は Nieman Lab に対し述べています。同社は、「利用規約は学術目的または研究目的でのみコレクションの利用を許可している」と付け加えました。
データジャーナリストでありニューヨーク大学教授の Meredith Broussard 氏は、「新聞業界の利益率が低下する中、知的財産を守ることは出版企業にとってますます重要になっています」と指摘し、「インターネット・アーカイブ誕生以来、誰もが抱えている論争と同じ内容だ」と述べました。「インターネット・アーカイブは非常に伝統的で『情報は自由でなければならない』という理念を持つ組織ですが、異なる投資関係にある側には優先順位が異なります。この状況には多くの歴史的・法的・経済的な課題が衝突しています。AI 企業は、古くから続く闘争の最新の一騎討ちを 촉発(引き起こしている)のです」。
1 月、Nieman Lab は記者 Ben Welsh 氏が作成した 1,167 のニュースサイトの robots.txt ファイルデータベースを用い、どのサイトがインターネット・アーカイブへのアクセスを禁止しているかを特定しました。当時、インターネット・アーカイブは使用しているクローラーボットについて確認を求める申し入れに反応しなかったため、Dark Visitors という AI ユーザーエージェント監視サービスのデータを参照して、4 つの関連するボットを特定しました(詳細な方法論はこちらをご覧ください)。その結果、241 のニュースサイトが少なくとも 1 つのインターネット・アーカイブ系クローラーボットのアクセスを拒否していることが判明しました。これらのサイトの約 80% は、旧ガネット社に改名された USA Today Co. に属していました。
5 月には、追加で 141 のニュースサイトが少なくとも 1 つのインターネット・アーカイブ系ボットのアクセスを拒否しており、サンプルに含まれるサイトの総数は 382 に増加しました。これらの新規導入の一部は Welsh 氏のデータベースにも含まれていましたが、その他は私たちが robots.txt ファイルを独自に確認することで発見しました。最終的なサンプルには 10 カ国のサイトが含まれていますが、そのほとんど(93%)は米国に所在しています。
更新されたサンプルに含まれる 382 のニュースサイトのうち、342 は地方紙です。もちろん、我々のデータは米国のすべての地方紙を網羅していませんが、国の主要な大手地方紙出版企業が多く少なくともインターネット・アーカイブへのアクセス制限を試みていることを示しています。
今回の分析で追跡したスクレイピングボットには、Heritrix、My-heritrix-crawler、heritrix/3.3.0、Archive-It、archive.org_bot、ia_archiver-web.archive.org、Special_archiver などがあります。(Archive-It、archive.org_bot、ia_archiver-web.archive.org、Special_archiver は 1 月の分析にも含まれていました。Heritrix とそのバリエーションがインターネット・アーカイブに属することを確認した後、追加しています。)Graham 氏は Nieman Lab に対し、「Wayback Machine は『ia_archiver』や『ia_archiverbot』、『ia_archiver-web.archive.org』といったボットは使用していない」と述べています。しかし、第三者のウェブサイトやインターネットフォーラムでは、長年「ia_archiver-web.archive.org」を Wayback Machine の自称ユーザーエージェントとして記録してきており、私たちは出版企業がこれをインターネット・アーカイブが使用するボットだと想定してブロックしているため、このデータセットからも除外せず含め続けています。データの完全版は下の表でご覧いただけます。
脅威の真実はインターネット・アーカイブにはありません
少なくとも 13 の Advance Local のニュースサイト(例:The Cleveland Plain Dealer [Cleveland.com]、The Patriot-News [PennLive.com]、The Oregonian [OregonLive.com])が、robots.txt ファイルにインターネット・アーカイブのユーザーエージェントを追加しています。
Advance Publications という Newshouse 一族による巨大メディアグループ傘下の子会社である Advance Local は、Nieman Lab に対し、本年 8 月に事前防衛措置として、Wayback Machine を通じて AI 企業がコンテンツをスクレイピングしたという証拠なしに、インターネット・アーカイブに対してハードブロック(強制的な完全ブロック)を開始したことを確認しました。「これは、出版された作品の価値を第三者による不当な利用から守るための広範な取り組みの一部です。この決断は Wayback Machine 自体に限られたものではありません」と、Advance Local の広報担当である Christine deWit 氏は声明で述べました。
Alden Global Capital もインターネット・アーカイブに対する新たな制限を導入した大手地方紙チェーンの一つです。そのうち約 60 のサイトは、米国各地の日刊紙を含む Mercury News、Denver Post、New York Daily News などを経営している Alden の子会社である MediaNews Group に属しています。さらに 7 つの出版物は Tribune Publishing が運営しており、中でも Chicago Tribune が有名です。
Alden は、米国新聞を攻撃的に買収し、短期的な利潤のために資源を削る行為に対して批判されてきました。コメント要請には応じていません。2025 年 7 月には、OpenAI や無償で新闻コンテンツを利用してモデルを訓練しているその他の AI 企業に対する明確な批判を含む社説を、60 以上の日刊紙に掲載しました。「この偉大な知識の基盤を築いた出版社からの許諾を得て、適正な対価を支払うことは、正しく公正かつアメリカ的なことです」と社説は述べています。Alden の両社は、OpenAI と Microsoft に対する主要な著作権侵害訴訟(ニューヨーク・タイムズも含まれ、現在連邦裁判所を巡って進行中)の一環です。
Baltimore Banner などの独立系の地方出版社は、ライセンス契約なしに AI チャットボットから自社の記事が検索されることを容認する姿勢を示していますが、Wayback Machine のような「裏道」が適切な引用の機会を損なうことへの懸念も依然として残っています。昨年は、同社は DataDome と連携してサイト上のクローラー活動を分析しました。結果は驚くべきものでした:Baltimore Banner の chief technology officer 兼 AI ストラテジストである Biswajit Ganguly 氏によると、サイトのトラフィックの約 25% がボット(インターネット・アーカイブが運営するクローラーも含まれる)から来るとのことです。この分析に基づき、Baltimore Banner はインターネット・アーカイブをブロックし、後にクローラーの一つを robots.txt ファイルに追加しました。一方、ChatGPT や Claude を使用する主要な AI 企業のクローラーは引き続き通帳されています。
Ganguly氏によれば、Wayback Machine に対する新たな制限交渉のためのライセンス契約や、自社の記事が AI 製品に表示されないことを防ぐためのものではなく、「AI 製品が情報を発信元として追跡できるようになり、 aggregating sites にリンクさせるのではなく、The Banner から参照できるようにすること」が主な目的であると説明しています。「ボットを私たちのコンテンツで学習させ、 afterward 参考文献やリンク、出典のクレジットなしに内容に基づく回答を吐き出すことを望んでいません」と Ganguly氏は述べました。「ChatGPT が Wayback Machine で何を見つけたとしても、それが適切に私たちに戻されるかどうかが不明確でした」。さらに、同社は AI 検索製品がボルトン地区に関するニュースや出版との相互作用について情報収集しており、将来ブロック解除も検討し続ける姿勢を示しました。「脅威の真実はインターネット・アーカイブにはありません」と Ganguly氏は付け加えました。「しかし問題は、他のアクターたちがどのようにしてコンテンツの実創造者への参考文献・クレジット・リンクを提供するかという点にあります」。
支払いのためのレバレッジとしてのブロック
地方出版社だけがこうした取り組みを進めているわけではありません。Advance Publications の他部門である Condé Nast もインターネット・アーカイブへのアクセス拒否に向けた一元的な対策を展開しています。Vogue、The New Yorker、Pitchfork、Vanity Fair、Bon Appetit、Wired は現在、リストに含まれる 4 つのクローラーボットへのアクセスを拒否しています(先月、Wired はこれらのブロックがインターネット・アーカイブにとって存在を脅かす課題であることを扱いました)。コメント要請には応じていません。
The Atlantic は昨年夏から Cloudflare と協力してインターネット・アーカイブをブロックし、今年前半の robots.txt ファイル更新で同アーカイブの一つのクローラーを追加しましたと、The Atlantic の通信責任者 SVP Anna Bross 氏は述べています。彼女は、この決断が当社の「積極的な」ブロックポリシーの一部であると説明しました。「デフォルトでブロックするのが原則です。許可なく The Atlantic のジャーナリズムをスクレイピングしようとするべきではありません。利用目的に関わらず」と Bross 氏は言いました。
The Atlantic の CEO Nick Thompson は、4 月に LinkedIn にアップされた動画で、1 月の our reporting をコメントしました。「すべてのコンテンツがスクレイピングされることによる損害や、失去するレバレッジを考慮すると、以前はデータを提供していた価値ある製品についても今後提供できなくなる可能性があります」と述べています。
主要な国際出版企業もインターネット・アーカイブへのブロックを開始しており、ブラジル最大の新聞である Folha de S.Paulo もその一つです。Folha は 2 月にrobots.txt ファイルに 3 つのインターネット・アーカイブユーザーエージェントを追加しました。「プロフェッショナルジャーナリズムの持続可能性——そして公共記録が保存しようとする素材自体は、知的財産の保護に依存しています」と、Folha の編集長である Sérgio Dávila 氏は述べています。「もし AI 企業がこのアーカイブをモデル訓練のために利用したいなら、第三者のレポジトリに頼るのではなく、ライセンス契約を結ぶ必要があります」と Dávila 氏は強調しました。Dávila 氏は、Folha は自社でデジタルアーカイブ Acervo Folha に投資しており、同社の創設である 1921 年以来の紙面版のデジタル化が含まれていると付け加えました。Acervo Folha のアクセスは有料購読者向けです。
どうすればよいか?
アーカイビングは高コストであり、技術インフラ、ストレージ、専門知識は小さな新聞社にとっては財政的に困難になります。デジタルニュース台頭以前、多くの紙は屋内図書館職員を配置した物理的アーカイブを維持していました。今日では、新聞産業の縮小により、そうした専任のアーカイビング職はほとんど消滅しており、デジタル出版への移行も問題を複雑にしています。
新しいコンテンツ管理システム(CMS)の導入はしばしば重大なアーカイブ喪失をもたらします。2024 年、マサチューセッツ西部にある Daily Hampshire Gazette と Greenfield Recorder のサイトでは、CMS 切り替えの最中に数千の記事が消えてしまいました。出版が終了すると、多くの元所有者はサイトの維持費を負うことを望みません。2022 年、 Charlottesville を週刊紙として運営していた The Hook が廃業から 10 年後に Archived サイトがオフラインになり、22,000 以上の記事も消失しました。
インターネット・アーカイブは、ウェブ全体を保存するという英雄的な任務に取り組むことでウェブのヒーローとして称賛され、ニュース機関が自らの作品を保存できない際に助ける存在としても評価されています。12 月には、同アーカイブは Poynter Institute と Investigative Reporters and Editors と協力し、33 の地方および全国紙を対象にアーカイブ戦略の開発と実装に関するトレーニングを実施しました。Press Forward グラントによって資金提供されるこのイニシアチブでは、2027 年末までに 300 のニュースルームをデジタル保存とインターネット・アーカイブサービスの使用において訓練することを目標としています。
初期コホートの多くは独立系や非営利の地方ニュースルーム(Outlier Media、Charlottesville Tomorrow、The 51st など)で構成されています。Wired は、我々のデータセット内でインターネット・アーカイブへのアクセスを制限している唯一の参加出版物です。NYU の教授である Broussard 氏は、「インターネット・アーカイブはアーカイブを無料にする稀有な取り組みの一つですが、新聞記事を保存する唯一の方法ではありません」と指摘しています。出版企業は長年、ProQuest や LexisNexis などの商業アーカイブからジャーナリズムのライセンスを取得しており、これらは図書館や大学、個人購読で利用可能です。それらは無料でありませんが、確かに存在します。少なくとも私たちが調査したサンプル内のいくつかの出版物は ProQuest データベースに含まれており、Chicago Tribune、The Baltimore Sun、Honolulu Civil Beat、USA Today が該当します。
経済的なインセンティブが出版社にコンテンツをインターネット・アーカイブから外したいという動機を与えつつあることは認められますが(Broussard 氏によれば)、ニュース機関は長期的で多面的な保存戦略を持つ必要があります。計画があっても、多くの出版社にとって現実としては「すべてを保存することは不可能である」という認識があります。「すべてのニュース組織、特に地方紙組織は一般的に『インターネット上に何かを投稿すれば、そこに残り続けるだろう』と考えて開始しますが、それは真実ではありません」と Broussard 氏は述べました。「『インターネットは永久に続く』とあなたに言った人は嘘をついています」。
訂正: この記事の前身では、NOLA.com が Advance Local に属すると記述されていましたが、現在は Georges Media Group の所有物です。
Internet Archive サーバーの写真(スコット・ビール/Laughing Squid 提供、クリエイティブ・コモンズライセンス下で利用)
アンドリュー・デック は Nieman Lab で AI を担当する常勤ライターです。貴社のニュースルームにおける AI の活用方法についてのティップスをお持ちであれば、E メール、Bluesky、または Signal(+1 203-841-6241)でお問い合わせください。