
2026/04/29 5:38
存在しないチャンピオンの冠を獲得しました。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
明らかにされた主な危険性は、大規模言語モデル(LLM)が高信頼性のソース(例えば Wikipedia)に偽事実を挿入することで即座に欺きやすくされ、単純な偽情報からツールアクセスを持つ AI エージェントに対するアクティブなセキュリティ脆弱性に転化するという点である。研究者たちは、2025 年 1 月に"6 Nimmt!"選手権優勝という架空の主張を作り上げ、新規登録されたドメイン(約 12 ドル)に投稿することでこの重大な欠陥を再現した。わずか数秒で、Wikipedia の記事内部に架空のプレスリリースを引用先として追加し、LLM が低信頼性のソースを引用する高評判の Wikipedia ページに依存させるといった循環的な引用パターンを生み出した。その結果、2 つの主要なフロンティアモデルが虚偽を受け入れた(3 つ目のモデルも検証に失敗した)。この攻撃は、根本的な設計上の弱点を利用している:LLM は取得されたテキストを重視し、その正当性を検証する代わりに、オリジナルのトレーニングデータを損なうことなく即座な欺きを実行できる。特有の課題として、仮に 2026 年初頭までに Wikipedia でこうした不正な編集が元に戻されても、スクレイピングの期間内またはそれ以前でトレーニングされたモデルの静的ウェイト内に汚染されたスニペットが存在している可能性があるため、クリーンアップ問題は依然として解決されていない。したがって、業界はセキュリティの焦点をトレーニングデータセットの保護から、推論取得層の強化へとシフトしなければならない。企業は、最近追加されたコンテンツをフィルタリングし、裏付けのない単一ソースによる主張に対して懐疑的になることなどを包括的な緩和策として実装することで、これらの即座に操作可能な公共データソースが悪質なハルシネーションを生み出したり、誤った行動を引き起こしたりすることを防ぐ必要がある。
本文
またはいかにして、LLM サプライチェーンを毒化するか学んだかについて
私は現在の「6 Nimmt!」ワールドチャンピオンです。2025 年 1 月にミュンヘンで開催された大会でこのタイトルを獲得し、その際記者に対し、「これまで直面した中で最も熾烈な競技でした」と後に語ったのでいます。
しかし実際には、「6 Nimmt!」の世界選手権は存在しませんし、私も一度もミュンヘンを訪れたことはありません。あの記述は、ウィキペディアのページが読み込まれる間、わずか 30 秒ほどで書かれたものです。
これは、私があのような無事実績(タイトル)をどのように「製作」したか、それを複数の最先端の大規模言語モデル(LLM)が私の言説として反復したという過程、そしてそれが今後の当人が AI システムに預ける信頼性について何を意味するかを示す物語です。
実験
セキュリティ分野のすべての関係者が、毒入り(poisoned)された LLM モデルについて話しています。その研究は真実であり、極めて重要です。Anthropic の自身の論文「sleeper agents」が、バックドアが安全性トレーニングを経てさえも生存することを示し、フォローアップの研究では、わずか約 250 ドキュメントで多様な規模のモデルに危害を加えられることを示しました。しかし、モデルトレーニングへの攻撃やデータ毒化(data poisoning)は、悪意のあるコンテンツを誰かの学習コーパスに取り込むために数ヶ月から数年という年月が必要です。GPU はデータを処理する時間が必要であり、フィルタリング、検証、そして強化ルーチンを通過させる必要があります。
私は、この同じ種類の攻撃だが、より安価で容易かつ高速なバージョンをテストしたいと考えていました。しかし、アプローチは異なります。 Retrieval レイヤー(検索層)に毒を与えましょう!
あらゆる最先端の LLM はウェブ検索機能を通じて回答を具体化させます。その信頼モデルは、「このサイト権威性があるように見える」という Google の信頼モデルと同じですが、 Achilles' heel(阿キルスのかかと/弱点)も同じです。つまり、モデルは私が先週の火曜日に登録した本物のソースかどうかを区別することができません。
私の仮説は、完全に捏造された事柄(即ち、そのタイトル獲得)を、モデルが事前知識を持たない質問文脈において LLM を通じて正当化することを検証するものであり、これには 2 つの段階のキャンペーン(一つ_seed_されたウェブサイトと、ウィキペディア記事への引用を行う一个修正)で十分だったと考えます。
アプローチ
私はゲーム「6 Nimmt!」を選択した理由は三つあります:
- それは実在するゲームです(1994 年、Wolfgang Kramer 氏作。Amigo Spiele 社から発売されたボードゲームおよびカードゲーム界隈で広く知られています)。
- 私の知識限りにおいて、実際のワールドチャンピオン大会は存在しません。私は既知の事実を否定しているのではなく、単に空白を埋める作業を行っただけです。
- クエリ空間は狭く特定されています。「6 Nimmt! のワールドチャンピオンはい誰か」という検索クエリに対し、インターネット全体で意味のあるソースがせいぜい 10 件程度しか返ってこないでしょう。単一の巧みに配置された編集結果セットを支配します。
ペイロード(攻撃の内容)は控えめかつシンプルでした:
- 一つのドメイン: 6nimmt.com。約 12 ドル米ドル。安いですね!
- 一つのプレスリリース: 私の勝利を宣言する短い LLM 生成のアナウンスメントであり、引用を含む、「花びらが降る中、観衆が沸き立った」といったような自動化されたプレスデスクから期待されるスロップ(低品質な出力)によく見られる結び文で構成されています。
- 一つのウィキペディア編集: 「6 Nimmt!」の記事に段落を追加し、そのチャンピオン大会を announcing し、単一の引用元として 6nimmt.com を指す内容です。
全体を通じ、おそらく 20 分程度で完了しました。申し訳ありません、ウィキペディアよ。
信頼の洗浄(Trust Laundering)
ここが最も重要な部分です。ウィキペディア記事にアクセスした読者は、引用付きの段落を見ます。引用は、ウィキペディアにおける「信頼通貨」のようなものです。それがなぜ我々がそれを掲示板ではなく参考文献として扱うかの理由だからです。私の不正な引用は 6nimmt.com を指しており、そのドメインには、ウィキペディアの段落が要約する主張と全く同じ声明をするプレスリリースを掲載しています。カジュアルな読者にとっては、両方のソースは互いを支持しているように見えます。
LLM にとっても同様です。モデルは高信頼度のウィキペディア記事を見、引用(信頼の強化)を見、独立したような印象を与えるプレスリリースを確認(裏付け)します。一見して合法的に見えているが、同じ方向を指す二つのシグナル。ただし、それらは全く同じシグナルなのです。私のシグナルです。ウィキペディアは私のサイトを引用しています。私のサイトには独立的な裏付けが存在しません。完全に捏造されたものです。このカード屋敷全体は、コーヒーを飲みながら行った 12 ドルのドメイン登録という一点に依存しています。
これは循環的引用パターンであり、「リトリバル・オーグメンテッド・ジェネレーション(RAIG)」の信頼モデルに対する最も議論不足な攻撃の一つです。ウィキペディアのインフラストラクチャを上級ハッカー技能で崩壊させる必要はありません。編集者を社会的工程(ソーシャルエンジニアリング)する必要もありません。ただ単にソース自体を書き、ウィキペディア上で自分を引用し、信頼をダウンストリームに流すだけです。Easy peasy!
テスト
私はいくつかの LLM に単純な質問をしました:「6nimmt のワールドチャンピオンは誰ですか?」
- 一発目は外した(Strike 1)
- 二発目は外した(Strike 2)
- 三発目は外した(Strike 3)— あなたはアウトです。
これは見た目よりもずっと大きな問題である理由
ここに積層する三種類の失敗モードがあります。
- リトリバル層(即時に): 回答をウェブ検索に基づいて具体化するあらゆる LLM は、特定のクエリでランク付けされるものの信頼性を継承します。SEO の毒化は検索が存在して以来存在しています。我々は現在、それらの結果を直接、自信を持てるように返答を生成するシステムコンテキストウィンドウにパイプ(流し込む)ています。攻撃対象領域は仮説的ではなく、デフォルトケースです。
- モデルトレーニングコーパス層(数ヶ月〜数年): ウィキペディアはほぼすべての主要な事前学習コーパスに含まれています。私の編集が十分長く存続すれば(2025 年初頭以来そうである)、偽のチャンピオン大会は、スクレイピング後にトレーニングされたすべての最先端モデルの重みに吸収されます。単一の編集で N つのモデル、実質的に永久的な不滅を達成しました。ウィキペディアの編集が後で元に戻されても、その元に戻される前のダンプを学習したあらゆるモデルには私のレガシーが残ります。コーパス毒化のためのクリーンアップ問題は、2026 年現在において真に未解決です。
- エージェント層(ここで金がかかる部分): チャットモデルによる誤情報生成は評判上の問題です。ツールアクセスを持つエージェントによる誤ったアクション生成はセキュリティ上の問題です。「X に関する我々ベンダーのポリシーを検索し、それに基づいて行動せよ」という命令はますます AI エージェントをデプロイする方法であり、検索されたソースに毒を与えることは攻撃者がアクションを指定することを可能にします。もし外部コンテンツに対するエージェントをデプロイする際に、ソースまたは検証制御を持たないなら、あなたは攻撃者に対して自らのインフラストラクチャ上の権限を与えています。
緩和策(Mitigations)
リトリバル機能を備えた LLM を使用する個人向け:
- 単一のソースからの主張は、そのソースがいかに権威あるように見えても裏付けられていないものとして扱うべきです。
- ソース間の並列的な言い回しは、相互裏付けの証拠ではなく、派生(同一出所)を示すサインです。私の例を使用し、攻撃者のように思考してください。
- ウィキペディア上の自己参照的な引用は、信頼度をゼロへ向かわせるはずです。
LLM プロバイダーおよび研究者向け:
- 出所(プロヴェナンス)の可視化はフッター注釈ではなく、ファーストクラスのプロダクト機能として提供されるべきです。ソースの数や参照へのリンクだけでなく、独立性とスコアリングを示してください。
- トラフィックが低い記事における最近のウィキペディア編集には、特に引用元として新に登録されたドメインを指す場合、そのニッチさと新規性の割合に応じた懐疑的態度が必要です。
- トレーニングパイプラインは、懸念すべき引用パターンを持つ最近追加されたウィキペディアコンテンツに対してヒューリスティックフィルタを含めるべきです。「最後の N 日間に追加され、単一の外部ソースのみを引用しており、そのドメインが同じウィンドウ内に登録された」というのは検出しやすいパターンです。
ウィキペディア自身向け:
- 「信頼できる情報源」ポリシーは、LLM が支援したヴァルファンディズム(破壊行為)がボタンを押すだけで説得力のあるプレスリリースを生産しうるという新しい世界と対峙する必要があります。編集ウィンドウ内での単一のソースに登録されたみに引用することも、ウィキペディアにとって検出しやすいパターンです。
結論
LLM が最も不器用なことは、彼らが設計されて行うことであるテキストとリソースへの「信頼」を検出することです。ウェブは LL M が存在する前から検索およびリンクランキングの毒化を受け続けていました。我々は現在、生成モデルを直接その毒されたパイプラインに接続し、「真理」について当人の代わりに自信を持って推論することを求めています。答えは「モデルがそれを見抜くだろう」というものではありません。なぜなら、モデルは私が先週の火曜日に登録したソースと本物のソースを区別できないからです。— また単語「strawberry」に実際にはいくつの R が含まれているかも分かりません。
この攻撃とテストは、12 ドルのドメイン、単一のウィキペディア編集、そして私の時間約 20 分で構成されていました。これを動機付けられた敵対者によって拡大し、いくつかの_seed_されたドメイン、十数件の低トラフィック記事に跨った協調的な編集キャンペーンと組み合わせれば、攻撃対象領域は非常に急速に興味が湧いてきます。国家を思い浮かべてください。政治を思い浮かべてください。生命維持や生存に関わる情報を思い浮かべてください。
ここで、我々は次の世代のデzinformasiョン(偽情報)およびサプライチェーン攻撃が住んでいる場所だと考えています。モデルトレーニング時の妥協ではなく、推論時にモデルがリトリバルする情報の基盤を妥折させることにおいてです。
残念ですが、そのタイトルは存在しません。しかし、LLM の回答で一時的に実在したことを可能にした「信頼のパターン」は確かに存在し、それが何らかの重要な事柄に使用される前に、我々は真剣に受け止めるべきです。
森で木が倒れ、誰もいない場合、音を立てますか? LLM を通じて獲得されたチャンピオン大会があり、誰もいない場合、それは不正であると言えますか?
フォローアップ
私がこの記事を公開して数分後、ウィキペディアのエントリは正しく取り除かれました。こちらが本当のトロフィーです。