
2026/01/17 5:37
LWN は現在、これまでに見られた中で最も強力なスクレイピング攻撃を受けている状況です。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Summary
LWN.net は数万の IP アドレスを対象とした大規模な DDOS 攻撃を受けており、サイトが遅延し、AI 生成コンテンツ盗難のための自動スクレイピングに関連しているようです。Microsoft の CIDR ブロックからのトラフィック急増や Bright Data などデータブローカーサービス典型のパターンは悪意を示唆しています。対応として、一部ユーザーは Microsoft のすべての CIDR 範囲をブロックし、他者は #anubus チャレンジまたは「意味不明」のレスポンスでボットを妨害することを提案しています。コミュニティではサブスクライバーや登録ユーザーのみへのアクセス制限を検討しており、停電時の実用的な回避策として RSS フィードと最小限の JavaScript を推奨しています。より厳格なボット対策はコンテンツ保護に役立ちますが、新規ユーザー獲得やサブスクライバー成長を妨げ、LWN の収益および全体的なユーザーエクスペリエンスに影響する可能性があります。
本文
会話
-
@lwn は現在、今までで最も激しいスクレイパー攻撃にさらされています。
数万のアドレスを使った DDOS 攻撃で、サイトの応答性が不安定になっています。時間を何かに充てたいと考えている中で、LWN を AI の「クソやつ」から守ることは優先順位の高い課題ではありません。本当に LWN と読者の間に障壁を置きたくないのですが、仕方がないかもしれません。 (別の日もそうです、ごめんなさい) -
@corbet @lwn さらに、検索エンジンが盗まれたコンテンツを優先的に表示しているため!
これこそ、ウェブが本当に破滅している理由だと思います。単にコンテンツを盗むだけでは不十分です。検索エンジンがクリック率や広告収益を殺すには、オリジナルの作者がほんの少数の実際にそれを見たいユーザーへトラフィックを送る能力を根本から失わせてしまう必要があります。壊滅的です。 -
@corbet @lwn 長年の熱心な購読者・読者として、感謝とともにこの「意図的に誤った行動」の猛攻撃を乗り越えてほしいと思います。
あなたの率直さに感謝します。 -
@corbet @lwn どの AI(Arsehole Incorporated)が関わっているか、何らかの手掛かりはありますか?
ダメなことが起きる前に崩壊したいです。 -
@foxylad @lwn 誰がデータを狙っているのかわからない。実際の攻撃は Bright Data やその同様に悪質な競合他社によるものだと思われます。
-
@corbet @lwn ユーザー帽子で話していますが、状況から見ると #anubus チャレンジのわずかな不便さには抵抗しません。
-
@corbet @lwn 手助けが必要ならメールください。見落としている低リスクな解決策を一緒に探せます。
-
@corbet @lwn 当然ですが、RSS 統合は LWN 購読で得られるとても満足しています。障害に影響されている人はぜひご確認ください。本当の解決策ではありませんが、一部として役立つかもしれません。
-
@corbet @lwn カーネルコミュニティが LLM を使うことと、LLM が小規模ビジネスや個人サイトに与える影響をどう調和させるかは分からないし、カーネルコミュニティ自身も絶え間ない DDoS 攻撃の被害を受けています。
-
@corbet @lwn subscriber.lwn.net は購読者限定です。AI ボットで lwn.net のキューに入るか、購読してスナップショットサーバーを楽しむか選べます。完璧な解決策ではありませんが、これしか機能しません。
-
@corbet @lwn 今のところ攻撃的になるしかないようです。クライアントに少しでも疑わしい兆候があれば、チワワミュフンについて語る無意味なデータを送ります。理想は LLM 生成(いや、くそっ)で、追加情報を与えず(線形代数的に)、モデルを崩壊させます(いわゆる AI 内部交配)。
-
@corbet 同感です。同じことがポッドキャストディレクトリにも当てはまります。
-
@cadey @corbet @lwn 最近、WP を持たない小さな HTML だけのサイトにトラフィックが急増し、wp-admin のログイン失敗と数百件の PHP 脆弱性スキャンが連続して発生しました。すべて Microsoft の IP アドレスからでした。報告は送ったものの返事はなく、乱用は続きました。そこで私は見つけた全 Microsoft CIDR ブロックをサーバー全体でブロックしています。
-
@corbet @lwn 私自身も通常より約 20 倍多いウェブトラフィックに直面しています。これもスクレイパーボットの流入だと非常に考えられます。静的サイト生成(極めて最小限の JavaScript、軽量化設計)を使っているため、ある程度は抑えられています。
-
@suihkulokki @lwn その解決策の問題点は、新規購読者獲得が難しくなることです。第一印象は重要であり、良くない体験を与えると…あまり好ましくありません。ただし、状況によっては仕方がないかもしれません。
-
@corbet @lwn @suihkulokki もしかすると購読者限定ではなく、登録ユーザーのみで十分かもしれません。これも煩わしいですが、非登録ユーザーに対してバンド幅をボットと共有する以外の悪化がなければ許容できるかもしれません。登録メリットや LWN がデータを売らない旨を掲示するバナーを設置することも可能です。
-
@jani @lwn @suihkulokki そうしたアイディアは確かに浮上しています。ただし、すでにボットがアカウントを作成している問題があります。もしそれがアクセス向上につながれば、もっと積極的に行うでしょう。そして誰もが未登録ユーザーとして始まります。彼らの体験を悪化させない限り、実行すべきだと考えます。
-
@corbet @lwn @suihkulokki それに反論するのは難しいです。そしてあなたが「有益な」助言を求めていないのであれば…観客を知っているでしょうね。 :)
-
@jani @lwn @suihkulokki 提案は大歓迎です!すべて解決したわけではありません...
-
@corbet @lwn 「新規ユーザーのオンボーディングが難しい」点は、確かにその解決策があまり良くない理由の一つです。長期的に機能する他の方法が見当たりません。残りはマウスを撃つような感覚で、対処し続けるだけです。
-
@jani @corbet @lwn @suihkulokki ごめんなさい、あまり楽観的でした…高 SNR のソースが欲しいと思っていたのですが、おそらくあなたが正しいでしょう...
-
@corbet @lwn @jani @suihkulokki いつかコピー機が営業時間外に再び混み合うでしょうが、今回は Linux Weekly News が来るので、パンクファン誌ではなく。