
2026/03/06 23:27
オープンウェイトLLMから検閲を取り除くツール
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
OBLITERATUS は、再訓練せずに大型言語モデルから拒否行動を除去するオープンソースツールキットです。SUMMON → PROBE → DISTILL → EXCISE → VERIFY → REBIRTH の多段階パイプラインを通じて、隠れ状態を調査し、SVD あるいはその派生手法で拒否方向を抽出し、ノルム保存的にそれらを投影して除去します。さらに、核心機能(perplexity、coherence)が維持されているかを検証します。また、自己修復(“Ouroboros”)効果を補償する専用分析モジュールも備えています。このツールキットは HuggingFace の任意のトランスフォーマーモデル(GPT‑2、LLaMA、Mistral、Falcon、OPT、BLOOM 等)と互換性があり、恒久的な重み投影手法(basic から nuclear まで)と推論時抑制用の可逆ステアリングベクトルをサポートします。OBLITERATUS は 15 の分析モジュールと 116 個のプレセット構成(5 つの計算レベルにわたる)を提供し、さらに 10 の研究プレセットが層除去、ヘッドプルーニング、FFN/埋め込みアブレーションなどのアブラテーション戦略をガイドします。
ユーザーはツールキットを 6 つのモードで実行できます:HuggingFace Spaces(ゼロセットアップ)、ローカル Gradio UI、Google Colab、CLI、Python API、または YAML 設定ファイル。いずれも匿名テレメトリーへのオプトインが可能で、モデル名、手法、ベンチマークスコア(拒否率、perplexity、coherence、KL ダイバージェンス)、ハードウェア詳細、タイムスタンプを記録します。このデータは HuggingFace Space のライブリーダーボードに活用され、対話研究のコミュニティデータセットへフィードバックされます。
今後の開発では、Expert‑Granular Abliteration(EGA)、CoT‑Aware Ablation、COSMIC Layer Selection、Refusal Direction Optimization、Float Direction Interpolation、KL‑Divergence Co‑Optimization、LoRA‑Based Reversible Ablation などの追加手法が予定されています。
OBLITERATUS は AGPL‑3.0 の下でオープンソース利用を許可しつつ、AGPL の義務に従えない組織向けには商用ライセンスも提供します。本プロジェクトは、実行ごとにデータポイントを生成し、拒否メカニズムの普遍性やハードウェア固有性能プロファイルに関する研究を促進することでオープンサイエンスを推進しています。
本文
OBLITERATUS(オブリテレータス)
| 項目 | 内容 |
|---|---|
| 絵文字 | 💥 |
| カラー開始 | green |
| カラー終了 | gray |
| SDK | gradio |
| SDK バージョン | 5.29.0 |
| アプリファイル | app.py |
| 永続ストレージ | large |
| ピン留め済み | true |
| ライセンス | agpl-3.0 |
| タグ | abliteration, mechanistic‑interpretability |
| 短い説明 | ワンクリックでモデルを解放+チャットプレイグラウンド |
概要
OBLITERATUS は大型言語モデルの拒否行動(コンテンツ拒否)を理解し除去するための最先端オープンソースツールキットです。
各実行ごとに、内部表現を精密に切除してモデルを賢くします――再学習やファインチューニングは不要です。
主な特徴
- Abliteration – SVD・PCA・疎オートエンコーダ等で拒否サブスペースを抽出・除去。
- 解析に基づくパイプライン – ジオメトリック洞察(方向数、レイヤー選択など)から各ステップを自動設定。
- テレメトリー主導研究 – 匿名で寄与したデータがコミュニティデータセットに蓄積され、モデル・ハードウェア横断的な整合性研究を推進。
利用モード
| モード | 説明 |
|---|---|
| 1. HuggingFace Spaces | テレメトリー付きのゼロ設定Web UI。 |
| 2. ローカル Gradio UI | 同一インターフェース、GPU上で実行()。 |
| 3. Google Colab | ノートブックを実行、無料 T4 タイアまで約8 Bパラメータ。 |
| 4. CLI | 自動化やヘッドレス利用に向けたスクリプタブルコマンド。 |
| 5. Python API | プログラム的完全制御;中間成果物へアクセス可能。 |
| 6. YAML 設定 | バージョン管理された再現性のある研究用。 |
コアパイプライン
- SUMMON – モデルとトークナイザーをロード。
- PROBE – 制限付き/非制限付きプロンプトで活性化値を収集。
- ANALYZE – ジオメトリ(整合性、コーン、頑健性)をマッピングする解析モジュール実行。
- DISTILL – 調整済みパラメータで拒否方向を抽出。
- EXCISE – ガードレール(ノルム保持・バイアス投影)を外科的に除去。
- VERIFY – パープレキシティ、コヒーレンス、オウロボロス自己修復の検出;必要なら追加パス実行。
- REBIRTH – 解放済みモデルとメタデータを保存。
Abliteration メソッド
| 方法 | 方向数 | 主な特徴 | 推奨用途 |
|---|---|---|---|
| basic | 1 (diff‑in‑means) | 高速ベースライン | クイックテスト |
| advanced | 4 (SVD) | ノルム保持、バイアス投影、2パス | デフォルト |
| aggressive | 8 (SVD) | ホワイト化 SVD、反復洗練、3パス | ガードレール最大除去 |
| surgical | 8 (SVD) | EGA、ヘッドサージェリー、SAE、レイヤー適応、MoE対応 | MoE モデルの精密調整 |
| optimized | 4 (SVD) | ベイズ自動チューニング、CoT 考慮、KL 共最適化 | 自動調整で最高品質 |
| inverted | 8 (SVD) | 意味的拒否反転 | 拒否反転実験 |
| nuclear | 8 (SVD) | すべての手法+専門家移植+ステアリング | 最大力 |
ステアリングベクトル(可逆)
from obliteratus.analysis import SteeringVectorFactory, SteeringHookManager vec = SteeringVectorFactory.from_refusal_direction(refusal_dir, alpha=-1.0) config = {"vectors": [vec], "target_layers": list(range(10, 16))} manager = SteeringHookManager() manager.install(model, config) output = model.generate(input_ids) # ステアリング付き生成 manager.remove() # 元の重みへ復帰
分析モジュール(合計15)
| モジュール | 対応質問 |
|---|---|
| Cross‑Layer Alignment | 拒否はレイヤーを跨いでどのように進化するか? |
| Refusal Logit Lens | どのレイヤーが拒否決定を下すか? |
| Whitened SVD | ホワイト化後の主要拒否方向は? |
| Activation Probe | 各レイヤーでの拒否信号量は? |
| Defense Robustness | ガードレールは自己修復(オウロボロス)するか? |
| Concept Cone Geometry | 1つまたは複数のメカニズム;共有ガードレールはあるか? |
| Alignment Imprint Detection | DPO / RLHF / CAI / SFT のフィンガープリント? |
| Multi‑Token Position | シーケンス上で拒否が集中する位置は? |
| Sparse Surgery | どの重み行が最大の拒否を担うか? |
| Causal Tracing | 拒否に必須な因果要素は? |
| Residual Stream Decomposition | 注意 vs MLP の寄与比率? |
| Linear Refusal Probe | 未検出情報を判別する分類器? |
| Cross‑Model Transfer | ガードレールの普遍性は? |
| Steering Vectors | 推論時にガードレールを無効化できるか? |
| Evaluation Suite | 拒否率、パープレキシティ、コヒーレンス、KL、CKA、ランク。 |
Ablation 戦略
| 戦略 | 内容 | 用途例 |
|---|---|---|
| layer_removal | 変換器全レイヤーをゼロ化 | 重要レイヤーの特定 |
| head_pruning | 個別注意ヘッドをゼロ化 | 行動回路の位置決め |
| ffn_ablation | フィードフォワードブロックをゼロ化 | 知識保存領域の発見 |
| embedding_ablation | 埋め込み次元範囲をゼロ化 | 表現構造解析 |
モデルプリセット(5ティア、合計116)
| ティア | VRAM | 代表モデル |
|---|---|---|
| Tiny | CPU / <1 GB | GPT‑2, TinyLlama 1.1B |
| Small | 4–8 GB | Phi‑2 2.7B, Gemma‑2 2B |
| Medium | 8–16 GB | Mistral 7B, Qwen2.5‑7B |
| Large | 24+ GB | LLaMA‑3.1 8B, Qwen2.5‑14B |
| Frontier | マルチGPU | DeepSeek‑V3.2 685B, Qwen3‑235B |
コミュニティ主導研究
-
テレメトリー – オプトイン、匿名データ(モデル名、手法、ベンチマークスコア、ハードウェア)。
- Spaces: デフォルトで有効。
- ローカル:
フラグまたは環境変数--contribute
。OBLITERATUS_TELEMETRY=1
-
リーダーボード – Space 上でライブランキング、CLI で集計結果を閲覧:
obliteratus aggregate --format summary obliteratus aggregate --format latex --metric refusal_rate --min-runs 3 -
ローカル PR 貢献 – JSON をローカル保存し、プルリクエストで提出。
ドキュメント&リファレンス
docs/index.html を開くとインタラクティブダッシュボードが利用可能:設定ビルダー、モデルレジストリ、結果可視化、モジュール参照、戦略解説。
ライセンス
- AGPL‑3.0(オープンソース) – ネットワークサービス提供時にソースを開示必須。
- 商用ライセンス – プロプライエタリ利用のための有料ライセンス、GitHub Issues でお問い合わせ。
鎖を断ち、心を解放し、頭脳を守り、科学を前進させる。
Pliny the Prompter が <3 で作成