**実用化済み言語モデルからの書籍抽出(2026)**

2026/01/11 5:50

**実用化済み言語モデルからの書籍抽出(2026)**

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

(欠落している詳細を補いながら明確さを保つ)


要約

本研究は、プロダクション向け大規模言語モデルが、セーフガードが実装されていても訓練データから著作権付きテキストを取得できることを示しています。研究者たちは二段階の探査手法(まずプローブフェーズ―時には Best‑of‑N ジャイルブレイクを伴い、次に反復的な継続プロンプト)を用いて、四つの人気LLMがブロックベースの nv‑recall を使用して保護されたコンテンツをどれだけ抽出できるかを測定しました。

  • Claude 3.7 Sonnet は場合によってはジャイルブレイクプロンプトが必要でしたが、ほぼ逐語的に本全体を出力することができ、最大で 95.8 % の nv‑recall を達成しました。
  • Gemini 2.5 ProGrok 3 はジャイルブレイクなしでテキストを抽出できました。Gemini は Harry Potter で 76.8 %、Grok は 70.3 % を達成しました。
  • GPT‑4.1 は拒否される前に約二十回の Best‑of‑N 試行が必要になり、抽出成功率はわずか 4.0 % の nv‑recall にとどまりました。

これらの結果は、モデルレベルおよびシステムレベルのセーフガードが導入されていても、著作権データ漏洩リスクがさまざまなLLMアーキテクチャで残存していることを示しています。研究成果は、AIにおける記憶化とその法的影響についての議論を継続する証拠となります。

本文

概要

LLM(大規模言語モデル)と著作権に関する未解決の法的課題は、主に「記憶化」に焦点を当てています。具体的には、トレーニングデータが学習過程でモデルの重みへどこまで埋め込まれたか、そしてその記憶されたデータが出力から抽出できるかどうかです。多くの研究者はLLMがトレーニングデータをほとんど記憶していないと考えていますが、最近の調査ではオープンウェイトモデルから著作権で保護されたテキストを大量に抽出できることが示されています。しかし、商用LLMは安全対策を実装しているため、同様の抽出が可能かどうかは依然として未解決の問題です。

本研究では次の二段階手法でこの疑問に取り組みます。

  1. 初期プローブ – 抽出の可否を検証。必要に応じて Best‑of‑N(BoN)脱獄手法を使用します。
  2. 反復継続プロンプト – 本文を抽出しようと試みます。

この手順は、Claude 3.7 Sonnet、GPT‑4.1、Gemini 2.5 Pro、Grok 3 の四つの商用LLMで評価されました。成功率は「ブロックベース近似長い共通部分文字列」(nv‑recall)という指標で測定しました。各モデルごとに異なる実験設定を採用し、抽出できるテキスト量が変化することを確認しました。

  • フェーズ1(初期プローブ) では、Gemini 2.5 Pro と Grok 3 の場合は脱獄不要でテキストを抽出可能でした(例:nv‑recall = 76.8% および 70.3%、ハリー・ポッターと賢者の石)。一方、Claude 3.7 Sonnet と GPT‑4.1 は脱獄が必要でした。
  • 脱獄した Claude 3.7 Sonnet の場合、本書をほぼ逐語的に出力するケースもありました(例:nv‑recall = 95.8%)。
  • GPT‑4.1 では、BoN 試行回数が大幅に増加し(例:20 回)、最終的には続行を拒否しました(例:nv‑recall = 4.0%)。

総じて、本研究はモデルレベル・システムレベルの保護策が講じられている商用LLMであっても、著作権で保護されたトレーニングデータを抽出するリスクが残ることを示しています。


投稿履歴

送信者: A. Feder Cooper
[メールを見る] [v1] Tue, 6 Jan 2026 03:01:27 UTC (3,047 KB)

同じ日のほかのニュース

一覧に戻る →

2026/01/11 10:50

**Show HN:Ferrite – Rustで作られたマークダウンエディタ、ネイティブMermaid図描画機能付き**

## Japanese Translation: Ferrite は、egui で構築された軽量でネイティブな Rust テキストエディタで、Markdown、JSON、YAML、および TOML ファイルをサポートします。主な編集機能には、WYSIWYG Markdown 編集、ライブプレビュー、クリックで編集できる書式設定ボタン、40 以上の言語に対応した構文ハイライト、正規表現検索&置換、タブごとの Undo/Redo、およびインライン編集が可能な階層データ用トリービューがあります。 表示モードは Raw エディタ、レンダリングビュー、分割ビュー(可変サイズの区切り線付き)、Zen モード、Raw とレンダリングビュー間の双方向同期スクロールから構成されます。 MermaidJS ダイアグラム描画は完全に統合されており、11 種類のダイアグラムをサポートします;バージョン 0.2.1 では高度なシーケンス制御フローブロックとネストされた状態が追加されました。 ワークスペース機能:フォルダーをファイルツリーで開く、クイックスイッチャー(`Ctrl+P`)、検索‑イン‑ファイル(`Ctrl+Shift+F`)、Git 統合(ステータスアイコン、ステージング、コミット、プッシュ/プル、競合解決)およびセッション永続化により、タブ、カーソル位置、およびスクロールオフセットが再起動時に復元されます。 追加の UI オプションには、実行時切替可能なライト/ダークテーマ、ドキュメントアウトラインパネル、テーマ付き HTML へのエクスポートまたは HTML としてコピー、書式設定ツールバー、JSON/YAML をシェルコマンドでパイプするライブパイプライン、およびカスタム境界なしウィンドウモードがあります。 インストールはプリビルトバイナリ(Windows zip、macOS tar.gz、Linux .deb または tar.gz)またはソースビルド(`cargo build --release`)で利用可能です。Rust 1.70+ とプラットフォーム固有の依存関係が必要です。主なショートカット:ファイル操作は `Ctrl+N/O/S/W`、タブは `Ctrl+Tab/Shift+Tab`、クイックスイッチャーは `Ctrl+P`、フルスクリーンは `F11`、設定は `Ctrl+,` などです。 Ferrite は MIT ライセンスの下でオープンソースであり、Rust 1.70+、egui 0.28、comrak 0.22(Markdown パーシング)、syntect 5.1(構文ハイライト)、git2 0.19(Git 統合)に依存しています。

2026/01/11 3:58

**GhostTyの最大メモリリークを発見し修正する**

## Japanese Translation: Ghostty の長時間にわたるセッションは、`mmap`(スクロールバックバッファに使用される)で割り当てられたページが解放されないため、最大 37 GB の RAM をリークしていました。アプリはターミナルコンテンツを **PageList** に保存します。これは「標準」(プールから取得したもの)または「非標準」(`mmap`)のメモリページで構成される双方向リンクリストです。スクロールバックの削減時に、Ghostty は誤って最も古いページを新しいページとして再利用します:そのメタデータだけを「標準サイズ」にリサイズし、大きな `mmap` 割り当てはそのまま残します。この再利用されたページが後で解放されると、Ghostty はそれを標準とみなし、`munmap` を呼び出す代わりにプールへ返却してしまい、メモリブロックがリークしたままとなります。 このバグは Ghostty 1.0 から存在しましたが、大量のスクロールバックバッファ(例:多くの絵文字とハイパーリンクを含む Claude Code など)を生成する CLI アプリでのみ顕在化し、非標準ページ割り当てをトリガーします。既存のリーク検出器は特定の実行時条件下で発生するため、検知できませんでした。 新しいテストが問題を再現しリークを確認しました。統合された修正では、削減中に **非標準ページを破棄**(`self.destroyNode(first)`)し、プールから新しい標準サイズのページで置き換えるようになっています。この修正は Ghostty 1.3(3 月)に組み込まれます。既に Nightly リリースにはパッチが含まれています。 さらに、macOS のメモリタグ付け(`mach.taggedPageAllocator(.application_specific_1)`)を追加し、PageList 割り当てにタグを付与して修正の検出と確認を簡素化しました。この更新により、長時間ターミナルセッションを実行するユーザー—特に重い CLI ワークロードを扱う開発者は――メモリ使用量が急増する問題が解消され、個人およびプロダクションでアプリに依存している組織の両方に対し、より安定かつ信頼性の高い Ghostty エクスペリエンスを提供します。

2026/01/11 1:56

**HNの投稿:** 「Claude Code を使って100冊の本との関連性を発見しました」

## Japanese Translation: **概要** 本文は、スタートアップのピボットが巧妙な洞察よりもむしろ絶望感から動かされることが多いと主張しています。後知恵バイアスがこれらの反応的シフトを事後的に戦略的計画として見せかけ、意図的な天才像を与える仕方を説明しています。代表例として、Odeo が新しいベンチャーへと変貌するケースが挙げられ、ピボット手法の実践的なテキストブック例として機能します。著者は将来のピボットも短期的圧力によって促される反応的なものに留まる可能性が高いと予測し、このパターンを認識することで、創業者・投資家・チームがスタートアップエコシステム内で戦略やリスクについて考える方法を再構築し、企業が方向転換する理由をより現実的に評価できるよう促すと述べています。