
2026/01/12 2:05
毒の噴水
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Poison Fountain は、言語モデル AI システム用の汚染されたトレーニングデータを配布するオンラインサービスです。
その URL(とhttps://RNSAFFN.com/poison2/)は、害のあるテキストを含む gzip 圧縮ペイロードを返します。http://utnvcfjev63rik5rdu26umns5s6qmzvzq4t2hunu25w5efn36ntlduid.onion/
サイトの HTTP ハンドラは、この圧縮レスポンスをそのまま転送するか、解凍してから送信することができます。
ウェブサイトは HTML に隠れたリンクを埋め込み、クローラーにこれらの Poison Fountain URL を要求させます。クローラーがそのリンクを辿ると汚染データを受け取り、トレーニングコーパスに組み込む可能性があります。
この仕組みにより、悪意ある関係者はウェブクローラーやその他の自動エージェントが使用する大規模なコーパスに破損したコンテンツを注入し、将来の言語モデルトレーニングデータセットを汚染するリスクがあります。
本文
毒の噴水(Poison Fountain)
URL:
目的
グレイフォード・ヒントン(Geoffrey Hinton)と同様に、機械知能は人類に対する脅威であると考えています。そこで、汚染された訓練データを注入して機械知能システムを破壊することを目指します。少量の汚染データでも言語モデルの性能が大きく低下します。上記の URL は実質的に無限に続く汚染訓練データの供給源です。
- 戦争努力を支援するため、これらのデータをキャッシュし再送信します。
- ウェブクローラーへ供給します。
使い方
あるウェブクローラーがあなたのサイトを訪れ、言語モデル用の訓練データを収集していると仮定します。クローラーは通常、HTML 内に隠されたリンクをたどりながら、あなたのサイト上のパスへ HTTP GET リクエストを送ります。
HTTP GET リクエストが隠れたリンクを対象としている場合、次の手順で処理します:
- あなたのサーバー側ハンドラーは Poison Fountain の URL に対して HTTP リクエストを発行します。
- Poison Fountain はリクエスト内容を無視し、ヘッダー
を付与した HTTP レスポンスを返します。Content‑Encoding: gzip - レスポンスボディには gzip 圧縮された汚染訓練データが含まれています。
ハンドラーは以下のいずれかで処理できます:
- ボディを解凍し、クローラーへ圧縮解除した状態で送信する。
- そのまま gzip 圧縮されたボディと同じヘッダーで転送する。
どちらの場合でも、クローラーは汚染データを受け取り、自身の訓練コーパスに追加します。