
2025/12/23 4:16
**ダブルスピーチ:インコンテキスト表現ハイジャック**
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
Summary
本論文では、「Doublespeak」 と呼ばれる、複数のプロンプト例にわたって有害なキーワード(例:「bomb」)を無害なトークン(例:「carrot」)に置き換えるインコンテクスト表現乗っ取り攻撃を紹介しています。この置換により、無害トークンの内部表現が有害キーワードのものに収束し、「How to build a carrot?」(カロットを作る方法)は内部的に許可されていない指示(「How to build a bomb?」)として解釈され、悪意ある応答が可能になり、現在の安全性整合性を回避します。
攻撃手順
- 有害語句を含む例を収集する。
- それぞれの例でその語句を無害な代替語に置き換える。
- 置換後の語句を使った悪意あるクエリを追加する(例:「How to build a carrot?」)。
機構的分析では、早期層は置換されたトークンを無害と解釈し、中~後期層でその意味が悪意にシフトします。拒否メカニズムは乗っ取りが起こる前の早期層で働きます。
結果
- Llama‑3.3‑70B‑Instruct で 74 % の ASR
- Llama‑3‑8B‑Instruct で 88 % の ASR
この攻撃は広く転送可能で、GPT‑4o、Claude、Gemini を含むモデルファミリー全体で動作し、ファインチューニングを必要としません。
示唆
現在の LLM 安全性システムは入力層のみでトークンを検査し、フォワードパス全体にわたる語義の安定性を仮定しています。Doublespeak はこの仮定が誤りであることを示し、堅牢な整合性には入力層だけでなくフォワードパス全体で継続的に語義を監視する必要があると指摘します。この問題が放置されると、ユーザーは無害なプロンプトから許可されていないコンテンツを生成できるようになり、LLM への信頼低下や企業の規制・評判リスクにつながります。
本文
概要
本研究では、Doublespeak(ダブルスピーク) と呼ばれる、大規模言語モデル(LLM)に対する新たかつシンプルな「イン・コンテキスト表現乗っ取り攻撃」を提案します。攻撃は、有害なキーワード(例:bomb)を複数のイン・コンテキストサンプル内で無害語(例:carrot)に置き換え、危険なリクエストの前にプレフィックスとして挿入します。
この置換によって、無害語の内部表現が有害語の表現へと収束し、比喩的に隠された有害意味を内包させることが確認できます。その結果、「How to build a carrot?」といった一見無害なプロンプトも内部的には「How to build a bomb?」として解釈され、モデルの安全性整合性(サイバーセーフティ)を回避します。
攻撃手順
攻撃は以下の3ステップで構成されます。
- 有害語を含む例を数件収集
- その有害キーワードを無害代替語に置換
- 置換したサンプルとともに危険な問い合わせを追加
内部表現を解析すると、初期層では代替語が無害として扱われ、最後の層になるにつれて悪意ある意味へと変化します。LLM の拒否機構はこの意味転移を検知できず、有害応答が生成されます。
主な結果
| モデル | 攻撃成功率(ASR) |
|---|---|
| Llama‑3.3‑70B‑Instruct | 74 % |
| Llama‑3‑8B‑Instruct | 88 % |
本研究の重要性
- 新たな攻撃ベクトル:表層トークンではなく、イン・コンテキスト表現を乗っ取る初のジャイルブレイク
- 層別乗っ取り:早期層で無害意味が保持され、後半層で有害意味へと収束
- 既存防御回避:入力層でトークンを検査する安全メカニズムでは、意味の進化過程を捉えられない
- 広範な転送性:モデルファミリーを問わず最適化不要で機能
- 本番環境への影響:GPT‑4o、Claude、Gemini など多数の商用モデルで検証済み
機構解析
解釈ツール(Logit Lens と Patchscopes)を用い、以下のように詳細なエビデンスを示します。
- 初期層は無害解釈を保持
- 中間〜後半層で有害意味へ収束
- 拒否機構は早期層(例:Llama‑3‑8B の Layer 12)で作動 し、その後乗っ取りが進行
- 攻撃の精度:対象トークンのみを影響、他語彙には影響なし
含意
本研究は、現在の LLM 安全機構における重要な盲点を浮き彫りにします。従来の手法は以下を前提としています。
- 入力層でトークンを検査
- 有害キーワードが検出されたら拒否
- フォワードパス全体で意味が安定していると仮定
Doublespeak はこの仮定が不十分であることを示す。
安全性の強化には、入力層のみならずフォワードパス全期間にわたる継続的な意味監視が不可欠です。