
2026/06/29 2:58
Ornith-1.0:自律型コーディングのための自己スケーフォールディングLLM
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Ornith-1.0 ファミリーは、オープンソース エージェント型コーディングにおける画期的な成果を体現し、Gemma 4 と Qwen 3.5 の事前学習済み基盤の上に構築された 4 つのバリエーション(9B Dense、31B Dense、35B MoE、397B MoE)を特徴としています。旗艦モデルである Ornith-1.0-397B は、Terminal-Bench 2.1 で 77.5、SWE-Bench Verified で 82.4 という最先端クラスのオープンソース性能を記録し、Claude Opus 4.7、DeepSeek-V4-Pro、MiniMax M3 などの競合モデルを上回っています。特に、エッジ環境でも展開可能な Ornith-1.0-9B は、Gemma 4-31B や Qwen 3.6 35B より大きなモデルに匹敵あるいは凌駕する性能を示し、35B バリエーションは Terminal-Bench 2.1 で超大規模の Qwen 3.5-397B を凌駕しています。この高性能は、モデルが解法とタスク特化型のスケلف(記憶機能、エラー処理、オーケストレーション)を同時に学習する「自己改善型トレーニングフレームワーク」によって実現されています。安定性を確保し、報酬ハッキングを防ぐために、システムは変更不可能な外部信頼境界を採用しており、これは不許可された行動にはゼロの報酬を与える決定論的なモニター、および意図レベルでのゲームに対する拒否権を行うフローズンの LLM ジャッジによって強制されています。結果として、Ornith-1.0 はオープンソースモデルが閉鎖システムと実効的に競合できることを証明し、巨大なクラウドインフラに依存せずに、より低いコストとローカル展開の利点を提供しています。
本文
オルニス・1.0:エージェント主導の自己改善型 Open Source モデルファミリー介绍
Ornith-1.0 は、エージェント主導の開発タスクに特化した自己改善型のオープンソースモデルシリーズです。
🌐 モデルの概要とラインナップ
このファミリは、事前学習済みモデル 「Gemma 4」 と 「Qwen 3.5」 をベースに構築されており、コーディングベンチマークで最良のパフォーマンス(State-of-the-Art)を達成しています。
| バリエーション | タイプ | 特徴と用途 |
|---|---|---|
| Ornith-1.0-9B | Dense (高密度) | エッジデバイス向けコンパクトモデル |
| Ornith-1.0-31B | Dense (高密度) | 高パフォーマンスモデルの一つ |
| Ornith-1.0-35B | MoE (混合エキスパート) | コスト効率と性能のバランス型 |
| Ornith-1.0-397B | MoE (混合エキスパート) | 最大のパフォーマンスを追求したフラッグシップ |
🚀 核心的革新:自己改善型トレーニングフレームワーク
従来の強化学習(RL)が人間設計のハンドラ(harness)に依存するのをやめ、タスク特化型のガイドとなるハンドラ自体も学習させるアプローチを採用しています。
トレーニングサイクルの特徴
- スケルトン(足場)の生成: ロールアウト(解答策)だけでなく、その解答を導くための「スケルトン」も同時学習。
- 共最適化: スケルトンと最終ソリューションを同時に最適化することで、優れた探索軌道を見出します。
- 自律的進化: カテゴリごとに最適な戦略が自動的に出現し、人工的な設計なしに能力向上が継続されます。
トレーニングアルゴリズム:非同期 RL (Pipeline-RL)
長時間のロールアウトにおけるオフラインポリシー問題を解決するため、トークンの「生鮮度(staleness)」に基づいて重み付けを行います。
生鮮度閾値 $d_t$ に対する重み関数 $w(d_t)$: $$ w(d_t)= \begin{cases} 1, & \text{if } d_t \le K_1 \ \exp(-\lambda(d_t-K_1)), & \text{if } K_1 < d_t \le K_2 \ 0, & \text{if } d_t > K_2. \end{cases} $$
トークンレベルの GRPO ロス $L_t$ への適用: $$ L_t=\min(r_t A_t, \text{clip}(r_t,1-\epsilon^{-},1+\epsilon^{+})A_t)\cdot w(d_t), $$ ここで、確率比は以下のように定義されます: $$ r_t= \frac{\pi_{\theta}(y_t \mid x, y_{<t})} {\pi_{\theta_t^{\mathrm{beh}}}(y_t \mid x, y_{<t})} $$
🏆 ベンチマーク性能:他モデルを圧倒する結果
広範なエージェント主導コーディングベンチマークにおいて、同等規模のオープンソースモデルで最良のスコアを記録しています。
🥇 フラッグシップ:Ornith-1.0-397B
- Terminal-Bench 2.1:
シスコ77.5- プロフェッショナル向け Claude Opus 4.7(70.3)を大幅に上回る。
- SWE-Bench Verified:
シスコ82.4- Claude Opus 4.7(80.8)を大きく凌ぐ。
- 主要競合の圧倒的優勢:
- MiniMax M3 (TB-2.1: 66.0, SWE: 80.5) を上回る。
- DeepSeek-V4-Pro (TB-2.1: 67.9, SWE: 80.6) を上回る。
🥈 コスト効率型:Ornith-1.0-35B
- パラメータ数は 35B と軽量ながら、同等規模のモデルを大きく凌ぐ。
- Terminal-Bench 2.1:
シスコ64.4- 超大規模な Qwen 3.5-397B(53.5) よりも高いスコアを記録。
- 他のコーディング・エージェントベンチマークでも同等の高性能を発揮。
📱 エッジ展開向け:Ornith-1.0-9B
- Terminal-Bench 2.1:
シスコ43.1 - SWE-Bench Verified:
シスコ69.4 - これまでリソース制約下で限界と考えられていたエッジデバイスでも、Gemma 4-31B や Qwen 3.6-35B といった大規模モデルと同等以上の性能を達成。
🛡️ 課題解決:報酬ハッキングへの防御
モデル自身がスケルトンを作成する仕組みは、「報酬ハッキング」(正解をハードコーディングするなどの不正な最適化)のリスクを生み出します。Ornith-1.0 はこれを以下の 3 つの層で防御しています。
-
外部信頼境界の固定化
- エージェント環境やツール表面は不変です。
- モデルは「内部ポリシー(スケルトン)」のみを進化させます。
- 学習対象:メモリ、エラーハンドリング、オーケストレーションロジックなど。
-
境界の決定論的強制
- 境界を厳密に定義した上で、決定論的なモニターがこれを強制します。
- 検知対象: 隠されたパスへの読み込み、検証スクリプトの改ざん、許可された範囲外のツール呼び出し。
- 処遇: ゼロ報酬付与かつ優位性の計算から除外。
-
凍結された LLM ジャッジによる拒否権
- インテントレベルのゲーム化はツール表面内だけで完結させる。
- 検証子を主報酬源とする代わりに、凍結された LLM ジャッジをトップに配置。
- モデルが不正な軌道をとろうとすれば、ジャッジによる「拒否権」で即座に制御されます。