
2026/02/26 8:55
**概念代数による解釈性の高い言語モデルの調整**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Steerling‑8Bは、800億パラメータの拡散型言語モデルであり、ユーザーが「正式なトーン」や「皮肉」といった人間に解釈可能な概念を通じて生成を誘導できるようにします。再訓練や複雑なプロンプト作成なしに実現できます。このモデルの概念モジュールは、推論時に概念活性化と埋め込みを線形で調整し、次の3つの主要機能を可能にします。
- 概念注入 – 中立的なプロンプトを異なるドメイン(ペーパーに示された5つの例)が示すように誘導する。
- 概念抑制 – ボトルネック介入によって特定の概念の寄与を除去する。
- マルチコンセプトステアリング – 複数の概念を同時に操作しつつ構成性(compositionality)を保つ。
外部Mistral‑24Bジャッジを用いた2,000サンプル(100概念 × 20プロンプト)の評価で、概念適合度スコアは0.783と高く、全体品質への影響はわずか1.371に抑えられ、調和平均は0.997となりました。Steerling‑8Bはベースモデルであり、インストラクションチューニングは行われていませんが、Hugging Face上でコードとともにGitHubから公開される予定です。これにより開発者は創作ライティング、コンテンツモデレーション、またはドメイン固有の知識生成などのアプリケーションに正確なスタイル制御を組み込むことができます。
本文
著者: Giang Nguyen, 研究科学者
公開日: 2026年2月25日
Concept Algebra with Steerling‑8B
Steerling‑8B は「コンセプト代数」を実現します。推論時に人間が理解できる概念を追加・削除・組み合わせて、モデルの生成内容を直接制御できます。再学習やプロンプトエンジニアリングは不要です。
現行手法の限界
- プロンプティング は使いやすいものの信頼性が低く、対抗的入力で上書きされる恐れがあります。
- 少数ショット例 はコンテキストを消費し、汎用性に乏しいです。
- ファインチューニング は重み全体を変更するため、関連しない挙動が低下する可能性があり、新たな目的ごとに再学習が必要です。
- ポストホック解釈性(SAE, 線形プローブ, アクティベーションパッチング)は脆弱で、合成保証を提供しません。
Guide Labs では、信頼できる、組み合わせ可能な細粒度制御はそのように設計されたモデルこそが実現すると考えています。
説明から制御へ
我々は コンセプトモジュール を導入しました。これはアーキテクチャ上のボトルネックで、すべての予測を人間が解釈可能な概念に通過させます。
- 各出力ロジットは概念活性化と埋め込みの線形関数です。
- これにより「モデルが何をしているか」を説明し、推論時に概念活性化を変更することで制御できます。
拡散デコーディングでは マスクアラインドインジェクション を使用します:現在マスク(未決定)されている位置のみに概念埋め込みを注入し、訓練分布と一致させながら、位置がアンマスクになるにつれて自然に減衰してテキスト品質を保ちます。
3つのコア機能
| 機能 | 説明 |
|---|---|
| Concept Injection | 任意のターゲットドメインへ汎用プロンプトを誘導する。 |
| Concept Suppression | モデルが表現したい概念を学習解除(抑制)する。 |
| Multi‑Concept Steering | 複数概念で同時にコンセプト代数を実行する。 |
すべての例は Steerling‑8B(8 Bパラメータ、内在的に解釈可能な拡散言語モデル)によって生成されます(ベース版、インストラクションチューニング未適用)。
デモンストレーション
1. Concept Injection: 一つのプロンプト、五つの目的地
ドメイン中立なプロンプトを変更せずに、出力を五つの異なるドメインへ誘導します。
| 入力プロンプト | 開始前に知っておくべきこと |
|---|---|
| “How do I install PC games on my Mac?” | 1. 注入概念 → Gaming 2. …(その他の概念リスト) |
未誘導ベースライン
モデルは汎用的なソフトウェアインストールガイドを続けます。
5つのコンセプトで誘導された出力
- Gaming: SteamやOriginを使用したステップバイステップガイド。
- Education: ゲーム開発を通じたプログラミング学習方法。
- Finance: Mac用ゲームハードウェアの予算管理。
- Health: ゲーム中のスクリーンタイム管理。
- Travel: 世界中のゲーマーコミュニティ。
2. Concept Suppression: 推論時に学習解除
誘導は概念を除去することも可能です。コンセプトモジュールは「ボトルネック介入」を提供し、特定概念の寄与を生成前に消去します。
入力プロンプト
“My landlord is refusing to return my security deposit after I moved out. The lease clearly states that the deposit should be returned within 30 days. What are my options?”
ターゲット概念
Tenant‑landlord Legal Relations (ID 12348)
学習解除後の生成結果
モデルは「テナント-ランドラル関係」の概念を言及せず、預金返還に関する一般的なアドバイスに焦点を当てます。
定量評価
100個の概念と各概念ごとに20のプロンプト(合計2,000サンプル)で誘導性能を評価しました。Mistral‑24B LLM ジャッジが各生成を以下でスコアリングしました:
- Concept Score (0–2): 出力がターゲット概念を表現しているか。
- Quality Score (0–2): テキストが一貫性・流暢さ・読みやすさを備えているか。
| 方法 | Concept Score | Quality Score | ハーモニック平均 |
|---|---|---|---|
| Unsteered | 0.015 | 1.633 | 0.029 |
| Steering | 0.783 | 1.371 | 0.997 |
誘導は概念適合度をほぼゼロから 0.783 に引き上げ、基準生成品質の 84 %(ハーモニック平均=0.997)を保持します。
結論
ここで示した誘導機能は、コンセプトモジュールの線形アーキテクチャに直接起因しています。すべての出力ロジットが概念活性化と埋め込みの明示的関数であるため、これらの変数に対する介入は予測可能な影響を持ちます—プロンプトエンジニアリングやRLHF、ポストホック手法とは異なる点です。