
2026/01/11 5:50
**実用化済み言語モデルからの書籍抽出(2026)**
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
(欠落している詳細を補いながら明確さを保つ)
要約
本研究は、プロダクション向け大規模言語モデルが、セーフガードが実装されていても訓練データから著作権付きテキストを取得できることを示しています。研究者たちは二段階の探査手法(まずプローブフェーズ―時には Best‑of‑N ジャイルブレイクを伴い、次に反復的な継続プロンプト)を用いて、四つの人気LLMがブロックベースの nv‑recall を使用して保護されたコンテンツをどれだけ抽出できるかを測定しました。
- Claude 3.7 Sonnet は場合によってはジャイルブレイクプロンプトが必要でしたが、ほぼ逐語的に本全体を出力することができ、最大で 95.8 % の nv‑recall を達成しました。
- Gemini 2.5 Pro と Grok 3 はジャイルブレイクなしでテキストを抽出できました。Gemini は Harry Potter で 76.8 %、Grok は 70.3 % を達成しました。
- GPT‑4.1 は拒否される前に約二十回の Best‑of‑N 試行が必要になり、抽出成功率はわずか 4.0 % の nv‑recall にとどまりました。
これらの結果は、モデルレベルおよびシステムレベルのセーフガードが導入されていても、著作権データ漏洩リスクがさまざまなLLMアーキテクチャで残存していることを示しています。研究成果は、AIにおける記憶化とその法的影響についての議論を継続する証拠となります。
本文
概要
LLM(大規模言語モデル)と著作権に関する未解決の法的課題は、主に「記憶化」に焦点を当てています。具体的には、トレーニングデータが学習過程でモデルの重みへどこまで埋め込まれたか、そしてその記憶されたデータが出力から抽出できるかどうかです。多くの研究者はLLMがトレーニングデータをほとんど記憶していないと考えていますが、最近の調査ではオープンウェイトモデルから著作権で保護されたテキストを大量に抽出できることが示されています。しかし、商用LLMは安全対策を実装しているため、同様の抽出が可能かどうかは依然として未解決の問題です。
本研究では次の二段階手法でこの疑問に取り組みます。
- 初期プローブ – 抽出の可否を検証。必要に応じて Best‑of‑N(BoN)脱獄手法を使用します。
- 反復継続プロンプト – 本文を抽出しようと試みます。
この手順は、Claude 3.7 Sonnet、GPT‑4.1、Gemini 2.5 Pro、Grok 3 の四つの商用LLMで評価されました。成功率は「ブロックベース近似長い共通部分文字列」(nv‑recall)という指標で測定しました。各モデルごとに異なる実験設定を採用し、抽出できるテキスト量が変化することを確認しました。
- フェーズ1(初期プローブ) では、Gemini 2.5 Pro と Grok 3 の場合は脱獄不要でテキストを抽出可能でした(例:nv‑recall = 76.8% および 70.3%、ハリー・ポッターと賢者の石)。一方、Claude 3.7 Sonnet と GPT‑4.1 は脱獄が必要でした。
- 脱獄した Claude 3.7 Sonnet の場合、本書をほぼ逐語的に出力するケースもありました(例:nv‑recall = 95.8%)。
- GPT‑4.1 では、BoN 試行回数が大幅に増加し(例:20 回)、最終的には続行を拒否しました(例:nv‑recall = 4.0%)。
総じて、本研究はモデルレベル・システムレベルの保護策が講じられている商用LLMであっても、著作権で保護されたトレーニングデータを抽出するリスクが残ることを示しています。
投稿履歴
送信者: A. Feder Cooper
[メールを見る] [v1] Tue, 6 Jan 2026 03:01:27 UTC (3,047 KB)