
2026/04/04 19:26
**「極めてシンプルな自己蒸留でコード生成性能を向上させる」**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
(欠落していた詳細を追加したもの)**
Self‑distillation(SSD)は、外部検証や強化学習を用いずに、自身のサンプリング出力で微調整することでLLMのコード生成精度を向上させる軽量手法です。Qwen3‑30B‑Instruct に適用すると、SSDは LiveCodeBench v6 の pass@1 を 42.4 % から 55.3 % に引き上げ、特に難易度の高いコーディングタスクで最大の改善を示しました。Qwen と Llama モデル(サイズ 4B、8B、30B)のインストラクションスタイルとシンキングスタイル両方で同様の向上が観測されました。技術は温度0.9で解答をサンプリングし、最初の512トークンで切り捨てた後、そのサンプルに対して標準的な教師付き微調整を行います。SSD の効果は、文脈依存でトークン分布を再構築することで、精度と探索性の矛盾を解決できる点に起因します。高い精度が必要な際には注意喚起トレイルを抑制し、探索中には多様性を保持します。コストのかからないポストトレーニング拡張として、RLや人間による検証を回避できるSSDは、他のLLMがコード生成性能を向上させ、ソフトウェア開発ツールや教育への広範な展開を促進する魅力的な選択肢となります。
本文
概要
大規模言語モデル(LLM)が、検証器・教師モデル・強化学習を一切用いずに、自身の生データのみでコード生成性能を向上させることは可能でしょうか?
私たちは「シンプルな自己蒸留(SSD)」という手法で肯定的に回答します。具体的には、モデルから特定の温度とトランケーション設定で解答サンプルを生成し、そのサンプルに対して標準的な教師付き微調整を行います。
- SSD によって Qwen3‑30B‑Instruct の LiveCodeBench v6 での pass@1 が 42.4 % から 55.3 % に改善され、特に難易度が高い問題で顕著な向上を示します。
- この手法は Qwen と Llama 系列の 4 B・8 B・30 B スケールにわたり、指示型(Instruct)と思考型(Thinking)の両バリアントでも有効です。
簡単な方法でこうした成果が得られる理由を理解するため、LLM のデコーディングにおける「精度対探索」衝突を追跡し、SSD が文脈依存的にトークン分布を再構築することで、精度が重要な箇所では散乱した尾部(ディスラクター)を抑制しつつ、探索が必要な領域では有用な多様性を保持すると示しました。
総じて SSD は LLM のコード生成性能向上のための補完的な事後学習手段として位置付けられます。