
2026/05/16 23:58
DeepSeek-V4-Flash の登場により、LLM の方向づけ(スティーアリング)が再び注目を集めています。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
DeepSeek V4 Flash は、Antirez の DwarfStar 4 という特別製のランナーと組み合わせることで有望なローカルコーディングツールとして浮上しています。DwarfStar 4 は「ステアリング」機能を導入しており、この機能は制御パネルのようなスライダーを通じて内部モデルのアクティベーションを直接操作することを可能にします。これにより、プロンプトだけに依存せず、「簡潔さ」などを調整するような振る舞いへの誘導が可能になります。この手法は、直接的な重みの変更やファインチューニングよりも低いリスクで学習済み振る舞いを変更するための実用的な代替手段を提供します(例:安全拒否の排除など)。OpenAI などの大手企業は、通常 API ユーザーが内部アクティベーションへのアクセスを持たないため重み調整を優先しますが、オープンソースコミュニティはこのギャップ埋め合いを始めつつあります。専門家たちは、現在のステアリングの限界を半年以内には超えることができれば、研究者たちがより多くのオープンウェイトが利用可能になるにつれてこれらの技術を特定モデル機能の強化に積極的に適用すると予測しています。究極的には、この技術は業界標準をアーキテクチャベースの知能への依存からベクターベースの制御システムへとシフトさせ、軽量なランタイム調整を可能にし、重大な計算コストをかけずにコア機能をより強力なものに置換することを有効に行うでしょう。
Text to translate:
DeepSeek V4 Flash emerges as a promising local coding tool when paired with Antirez's DwarfStar 4, a specialized runner that introduces "steering" capabilities. Steering allows users to directly manipulate internal model activations via control-panel-like sliders, guiding behavior—such as adjusting "succinctness"—without relying solely on prompts. This method offers a practical alternative for changing trained behaviors (e.g., removing safety refusals) with lower risk than direct weight alteration or fine-tuning. While major companies like OpenAI typically prioritize weight adjustments because their API users lack access to internal activations, the open-source community is beginning to bridge this gap. Experts predict that if current steering limits are surpassed within six months, researchers will eagerly apply these techniques to enhance specific model features as more open weights become available. Ultimately, this technology could shift industry standards from relying on architecture-based intelligence to a vector-based control system, enabling lightweight runtime adjustments and effectively replacing core capabilities with stronger ones without heavy computational costs.
本文
ゴールドネート・クラウドが登場して以来、私は「steering(スティングイング)」という概念に強烈な関心を寄せ続けています。つまり、生成中のニューラルネットワークの内部状態であるアクティベーション値を直接操作することで、大規模言語モデル(LLM)の出力を導くことができるという考え方です。
DeepSeek V4 Flash
この投稿を書くきっかけとなったのは、antarez 氏の最近のプロジェクト「DwarfStar 4」です。これは llama.cpp の一種で、動作対象を DeepSeek-V4-Flash モデルに特化して削減されたバージョンです。このモデルが特別なのはなんでしょうか。多くのエンジニアが待ち望んでいた可能性のあるものは何か。それは、少なくとも frontier(最前線)クラスのモデルエージェントによるコーディングの低価格帯と対等に渡り合える程度の能力を持つローカル実行可能なモデルを提供できる点にあると思われます。
steering を実装するにはローカル環境でのモデル実行が必要となるため、多くのエンジニアにとってようやく初回試行が現実的になった時期です。実際、antarez 氏は DwarfStar 4 において steering を第一級市民として組み込みました。現状ではまだ非常に初歩的なレベルですが(基本的にはプロンプティングでも再現可能な「verbosity」という玩具例のみ)、先行版のリリースもつい 8 日前と新しいことです。私はこのプロジェクトに引き続き注視していく予定です。
steering の仕組み
steering の基本的な概念は、モデルの内部脳状態からある概念(例えば「簡潔に回答する」)を抽出し、推論中にその概念を構成している数値的なアクティベーション値に入り込んで強化することです。
これを成す一つの手法としては、モデルに対して同一の 100 プロンプトセットを二度提示します。一回目は通常のプロンプトだけとし、もう一度は「簡潔に回答する」という語句を追加して提示します。その後、各プロンプトペアごとのモデルのアクティベーション値の違いを測定します(一つの活性化行列をもう一つから引き算することで)。これがあなたの「steering ベクター」です。理論的には、このベクターを任意のプロンプトに対する同じ活性化レイヤーに追加することで、同様の効果(モデルが簡潔に回答すること)を得ることができるはずです。
より洗練されたアプローチの一方として、別の手法があります。それは、第 2 のモデルをトレーニングして、あなたのモデルのアクティベーションから「特徴量」を抽出させることです。これとはつまり、一貫して出現する様相としての振る舞いのパターンを検出することです。その後、それらの特徴量を個々の概念にマッピングし、同様に強化します。これは Anthropic 氏がスパース・オートエンコーダ(Sparse Autoencoders)を通じて行っていることの概略です。原則は単純なアプローチと同じですが、より深いパターンの捕獲が可能になります(時間計算量、計算資源、専門知識という点で大幅に高コストとなることを犠牲にした上でも)。
なぜ steering が魅力的なのか
steering を聞くと、まるでチートコードのように聞こえます。多大な労力をかけてトレーニングデータを構築し、モデルをそのトレーニングデータにおける分布の「知性」側へ無理やり押し込む代わりに、なぜわざわざモデルの脳内の「知性」ダイヤルを見つけて右まで全部回してしまわないだろうか?
また、モデルの話し方を見直すのによりエレガントな方法のようにも思えます。プロンプトを弄り(「MUST」といった修飾語を追加したり削除したり)、代わりに単に「簡潔さ/冗長性」や「勤勉さ/速度」といったスライダーで構成されたコントロールパネルを持って、それを直接操作できないものか?
最後に、これほど魅力的です。GoldGateClaude が不本意にも各文書をゴールデンゲートブリッジへと引き戻す様子を見ていくのは、オレイバー・サックス氏による神経学的逸話を見ることと同様に fascination と不安に満ちています。もしあなたの心もそのような方法で微調整されたとしたら。それってまだあなた自身と言えるでしょうか?
なぜ steering がまだ使われていないのか
では、もっと steering を使わないのはなぜでしょうか?なぜチャット GPT や Claude Code では、モデルの脳をリアルタイムに調整できる steering パネルが既に用意されていないのでしょうか。その理由は、steering が AI 研究において不幸にも「中間クラス」のアイデアにあるためです。
それは巨大な AI ラボにとっては小さすぎる課題です。彼らは推論中の奇妙な脳手術を行う必要なく、直接モデルを操作することができます。Anthropic もこの分野での開発を行っていますが、主として解釈可能性(interpretability)と安全性の観点からであると考えられます(私の知る限り)。彼らがモデルを特定の方法で振る舞うようにしたい場合、steering を操作するのではなく、単にモデルをトレーニングし直します。
steering は、またあなたが私のような一般の AI ユーザーにとっては手を出しどころがありません。私たちは LLM を API 経由で使用するため、モデルの重みや steering するために必要なアクティベーション値へのアクセスがないからです。OpenAI は例えば GPT-5.5 の steering ベクターを特定したり公開したりできるかもしれませんが、そのようなことはできません。オープンウェイトのモデルについてはこれを行うことも可能でしたが、ごく最近まで、それらを対象にするに足るほど強力なオープンモデルが存在しなかったためです。
さらに上には、steering の基本的な応用が単なるプロンプティングによって凌駕されるという問題があります。モデルの脳を直接操作できるのは非常に印象的なことのように聞こえますが、何と言いますか。モデルの脳を直接操作する別のものはありませんか?それはプロンプトトークンです。steering でアクティベーション値に対してある程度微細な制御ができるのであれば、プロンプトの言語を微調整することで既に極めて微細な制御が可能です。言い換えれば、冗長性を高めるためにわざわざモデルを steering する手間をかける必要はなく、単に尋ねれば済むからです。
プロンプトで操作できないものに対する steering
steering が本当に有用になるのは、プロンプトでは誘発できない概念を特定できる場合です。例えば「知性」はどうか?以前は知性をプロンプトすることで実現可能でしたが(これが 4o エアのプロンプティングが常に「あなたは専門家である」という言葉で始まる理由です)、現世代のモデルはその知性を性格に内蔵しているため、これを求めるだけのプロンプトは何の効果もありません。それでも steering で可能かもしれませんか?
結局のところこれは実証的問いですが、「知性」に対する steering ベクターを見つけることはできないと考え skeptical です。言い換えれば、「知性」という困難な概念を構成する steering ベクターは、モデルの全重量セットとほぼ重なり合い、それ自体を特定することは「賢いモデルをトレーニングすること」という問題に帰着してしまう可能性があります。
十分に洗練された steering アプローチの結果、実質的に実際のモデルそのものを置換してしまっています。GPT-2 を取り、各レイヤーで活性化値を同じアーキテクチャを持つ著しく強力なモデルの活性化値と交換すると、はるかに良い結果が得られます。しかし、その時点で GPT-2 をより賢くしているわけではなく、単により強力なモデルとの対話を行っているだけです。知性はモデルの中に而非ず steering にあります。この点に関するさらに詳しい内容は、私の投稿「AI 解釈可能性には精神哲学と同じ問題がある」を参照してください。
steering をデータ圧縮として捉える
steering が有用になるもう一つの道は、概念の表現に大量のトークンが必要となるような概念に対して steering を行うことができる場合です。こうすることで、モデルのコンテキストウィンドウの大部分を節約することができます。直観的に、これは概念をモデルのワーキングメモリから暗黙的記憶へシフトさせる方法だと考えられます。
例えば、「私のコードベースに関する知識」といった概念を特定できればどうでしょうか?GPT-5.5 が私のコードベースをスピードリーディングする際、獲得したその知識の一部は必ず活性化に埋め込まれているはずです。それを大きな steering ベクターとして引き出すことはできないでしょうか?
このことが機能するのには驚きです。私は「知性」を取り出す際に直面したのと同じ問題に遭遇すると考えています。「私のコードベースを知る」という概念はおそらく十分に洗練されており、モデルのフルファインチューンが必要になるはずです。しかし、少なくともそれは可能に思えます。
結論
steering には強い関心を抱いていますが、特別楽観的ではありません。多くの利点はプロンプトを用いてより効率的に再現できると考え、真に雄大な steering の目標もモデルのトレーニングまたはファインチューニングによってより効率的に再現できると思います。
しかし、オープンソースコミュニティはまだ steering に関する多くの作業を行っておりませんし、それはようやく変化するところかもしれません。私が間違っていて実際的な応用がある場合は、来たる 6 ヶ月以内に見出されるはずです。
DwarfStar 4 のようなモデル固有の専用ツールの登場により、ブースト可能な機能の「ライブラリ」が含まれるかどうかを見るのは興味深いですね。人気のあるオープンウェイトモデルがリリースされると、コミュニティはすぐにラッパーや量子化バージョンのリリースに乗り出します。モデルからブースト可能な機能を抽出する取り組みへの熱狂も起きないでしょうか?
補足: この記事は Hacker News でいくつかのコメントを得ました。いくつかの commenter(antarez 氏自身を含む)は、steering はプロンプティングでは達成できない方法で、トレーニングにより取得された振る舞いを変更できることを指摘しました。特に、モデルからの拒絶を除去する点です。別の commenter は、これがオープンモデルでの検閲解除(uncensoring)やアブレーション化が既に行われている方法であると述べています。私はそれを知っておりません;通常、検閲されていないモデルは LoRA ファインチューンであると思っていたのです。この点について、antarez 氏はモデルの重みを改変することは、より軽量な実行時 steering アプローチ(必要な時だけ適用可能)よりもモデルの能力を損なう可能性があると指摘しました。私は納得しています。
これは、この記事と同じタグを持つ関連投稿のプレビューです。