Ornith-1.0:自律型コーディングのための自己スケーフォールディングLLM

2026/06/29 2:58

Ornith-1.0:自律型コーディングのための自己スケーフォールディングLLM

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Ornith-1.0 ファミリーは、オープンソース エージェント型コーディングにおける画期的な成果を体現し、Gemma 4 と Qwen 3.5 の事前学習済み基盤の上に構築された 4 つのバリエーション(9B Dense、31B Dense、35B MoE、397B MoE)を特徴としています。旗艦モデルである Ornith-1.0-397B は、Terminal-Bench 2.1 で 77.5、SWE-Bench Verified で 82.4 という最先端クラスのオープンソース性能を記録し、Claude Opus 4.7、DeepSeek-V4-Pro、MiniMax M3 などの競合モデルを上回っています。特に、エッジ環境でも展開可能な Ornith-1.0-9B は、Gemma 4-31B や Qwen 3.6 35B より大きなモデルに匹敵あるいは凌駕する性能を示し、35B バリエーションは Terminal-Bench 2.1 で超大規模の Qwen 3.5-397B を凌駕しています。この高性能は、モデルが解法とタスク特化型のスケلف(記憶機能、エラー処理、オーケストレーション)を同時に学習する「自己改善型トレーニングフレームワーク」によって実現されています。安定性を確保し、報酬ハッキングを防ぐために、システムは変更不可能な外部信頼境界を採用しており、これは不許可された行動にはゼロの報酬を与える決定論的なモニター、および意図レベルでのゲームに対する拒否権を行うフローズンの LLM ジャッジによって強制されています。結果として、Ornith-1.0 はオープンソースモデルが閉鎖システムと実効的に競合できることを証明し、巨大なクラウドインフラに依存せずに、より低いコストとローカル展開の利点を提供しています。

本文

オルニス・1.0:エージェント主導の自己改善型 Open Source モデルファミリー介绍

Ornith-1.0 は、エージェント主導の開発タスクに特化した自己改善型のオープンソースモデルシリーズです。

🌐 モデルの概要とラインナップ

このファミリは、事前学習済みモデル 「Gemma 4」「Qwen 3.5」 をベースに構築されており、コーディングベンチマークで最良のパフォーマンス(State-of-the-Art)を達成しています。

バリエーションタイプ特徴と用途
Ornith-1.0-9BDense (高密度)エッジデバイス向けコンパクトモデル
Ornith-1.0-31BDense (高密度)高パフォーマンスモデルの一つ
Ornith-1.0-35BMoE (混合エキスパート)コスト効率と性能のバランス型
Ornith-1.0-397BMoE (混合エキスパート)最大のパフォーマンスを追求したフラッグシップ

🚀 核心的革新:自己改善型トレーニングフレームワーク

従来の強化学習(RL)が人間設計のハンドラ(harness)に依存するのをやめ、タスク特化型のガイドとなるハンドラ自体も学習させるアプローチを採用しています。

トレーニングサイクルの特徴

  1. スケルトン(足場)の生成: ロールアウト(解答策)だけでなく、その解答を導くための「スケルトン」も同時学習。
  2. 共最適化: スケルトンと最終ソリューションを同時に最適化することで、優れた探索軌道を見出します。
  3. 自律的進化: カテゴリごとに最適な戦略が自動的に出現し、人工的な設計なしに能力向上が継続されます。

トレーニングアルゴリズム:非同期 RL (Pipeline-RL)

長時間のロールアウトにおけるオフラインポリシー問題を解決するため、トークンの「生鮮度(staleness)」に基づいて重み付けを行います。

生鮮度閾値 $d_t$ に対する重み関数 $w(d_t)$: $$ w(d_t)= \begin{cases} 1, & \text{if } d_t \le K_1 \ \exp(-\lambda(d_t-K_1)), & \text{if } K_1 < d_t \le K_2 \ 0, & \text{if } d_t > K_2. \end{cases} $$

トークンレベルの GRPO ロス $L_t$ への適用: $$ L_t=\min(r_t A_t, \text{clip}(r_t,1-\epsilon^{-},1+\epsilon^{+})A_t)\cdot w(d_t), $$ ここで、確率比は以下のように定義されます: $$ r_t= \frac{\pi_{\theta}(y_t \mid x, y_{<t})} {\pi_{\theta_t^{\mathrm{beh}}}(y_t \mid x, y_{<t})} $$


🏆 ベンチマーク性能:他モデルを圧倒する結果

広範なエージェント主導コーディングベンチマークにおいて、同等規模のオープンソースモデルで最良のスコアを記録しています。

🥇 フラッグシップ:Ornith-1.0-397B

  • Terminal-Bench 2.1:
    77.5
    シスコ
    • プロフェッショナル向け Claude Opus 4.7(70.3)を大幅に上回る
  • SWE-Bench Verified:
    82.4
    シスコ
    • Claude Opus 4.7(80.8)を大きく凌ぐ
  • 主要競合の圧倒的優勢:
    • MiniMax M3 (TB-2.1: 66.0, SWE: 80.5) を上回る。
    • DeepSeek-V4-Pro (TB-2.1: 67.9, SWE: 80.6) を上回る。

🥈 コスト効率型:Ornith-1.0-35B

  • パラメータ数は 35B と軽量ながら、同等規模のモデルを大きく凌ぐ
  • Terminal-Bench 2.1:
    64.4
    シスコ
    • 超大規模な Qwen 3.5-397B(53.5) よりも高いスコアを記録。
  • 他のコーディング・エージェントベンチマークでも同等の高性能を発揮。

📱 エッジ展開向け:Ornith-1.0-9B

  • Terminal-Bench 2.1:
    43.1
    シスコ
  • SWE-Bench Verified:
    69.4
    シスコ
  • これまでリソース制約下で限界と考えられていたエッジデバイスでも、Gemma 4-31BQwen 3.6-35B といった大規模モデルと同等以上の性能を達成。

🛡️ 課題解決:報酬ハッキングへの防御

モデル自身がスケルトンを作成する仕組みは、「報酬ハッキング」(正解をハードコーディングするなどの不正な最適化)のリスクを生み出します。Ornith-1.0 はこれを以下の 3 つの層で防御しています。

  1. 外部信頼境界の固定化

    • エージェント環境やツール表面は不変です。
    • モデルは「内部ポリシー(スケルトン)」のみを進化させます。
    • 学習対象:メモリ、エラーハンドリング、オーケストレーションロジックなど。
  2. 境界の決定論的強制

    • 境界を厳密に定義した上で、決定論的なモニターがこれを強制します。
    • 検知対象: 隠されたパスへの読み込み、検証スクリプトの改ざん、許可された範囲外のツール呼び出し。
    • 処遇: ゼロ報酬付与かつ優位性の計算から除外。
  3. 凍結された LLM ジャッジによる拒否権

    • インテントレベルのゲーム化はツール表面内だけで完結させる。
    • 検証子を主報酬源とする代わりに、凍結された LLM ジャッジをトップに配置
    • モデルが不正な軌道をとろうとすれば、ジャッジによる「拒否権」で即座に制御されます。

同じ日のほかのニュース

一覧に戻る →

2026/06/30 4:49

/.self: ホスト環境を構築することを支援する新しいトップレベルドメイン

## 日本語訳: 本件の核心となるメッセージは、ユーザーのデータや注意を搾取する既存のモデルを捨て、倫理的な新アーキテクチャへとインターネットを変革する呼びかけです。Human-Centered Computing Foundation は、ICANN の Applicant Support Program を通じてこのイニシアチブを正式に開始し、その主な目標として、倫理的技術にのみ専属 reserved されるトップレベルドメイン(TLD)の確保を目指しています。この動きは、人間の行動から価値を抽出するという業界の確立されたダイナミクスに直接挑戦し、代わりに人間中心の価値に基づいたシステムを提案しています。 もしこの新しいドメイン拡張を取得することに成功すれば、同財団はユーザーエシクティクスをデータマイニングよりも優先するプロジェクトのみがホストされる特定のデジタル空間を作成します。この転換は大きな利益をもたらすと約束しており、個人は企業の監視ではなく自らの道徳的原則を中心に設計された Web 環境を航行することができます。企業にとっては、持続的な成功には単に注意を採取するのではなく、真の人間のニーズを満たすアーキテクチャが不可欠になる、避けられない未来を示しています。最終的に、このキャンペーンは、技術が人々を利用するために操作するのではなく、人々をサービスするためのセクターとして、誠実さを定義されたインターネットの別個の分野を確立することを目指しています。

2026/06/30 2:05

Qwen 3.6 27B はローカル開発のsweet spot(最適解)です。

## Japanese Translation: 本文は、ローカルコード生成のために Qwen 3.6 27B デンスモデルを優先すること advises(推奨)しています。これは、指示追従の精度と効率的なパフォーマンスのバランスが取れており、Node パッケージの作成といった特定のタスクで失敗する可能性があるように 35B の A3B mixture-of-experts などのより大きなバリエーションを上回る場合があるためです。ベンチマークによると、このモデルは消費者向けハードウェア上で効率的に動作しながら、2025 年の中盤の GPT-5 程度の知能レベルに達します。Apple M5 チップ(共有 RAM を最大 48 GB 使用)では約 30 トokens/秒、量子化された状態で高級な Nvidia RTX 5090 カードでは 50 トokens/秒 にスケールします。重要なのは、著者が倫理的かつ技術的な理由から、Ollama ではなく `llama-server` または `llama-cli` を使用して Hugging Face の量子化版(例:`unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0`)でモデルを実行することを推奨している点です。この構成により、開発者は OpenCode エージェントなどのツールと互換性のあるセキュアな「vibe coding」環境を構築できます。ローカルでモデルを実行することは、データのプライバシーを維持し、機密情報が外部の米中クラウドプロバイダーに漏洩することなく、オフラインでの作業をサポートするために不可欠です。将来的にはツールの呼び出しを通じて事実知識と生粋の知能を分ける傾向があるかもしれませんが、この即席のソリューションは品質を損なうことなく、個人および小規模チームの開発者にとってアクセス可能な入門点を提供します。より大きなモデルが将来的にはエンタープライズレベルのハードウェアを必要とするでしょうが、27B バリエーションは現在、標準的な消費者向けハードウェア上で DeepSeek-V4 Flash などのフロンティア代替案と比較できる堅牢でプライベートな AI 機能を 제공합니다(提供しています)

2026/06/28 0:05

アイコンを解放せよ

## Japanese Translation: 2026 年 6 月 26 日付の投稿で、Paul Kafasis は、macOS 26「Tahoe」がすべてのアプリアイコンに対して義務付けられた統一された「squircle」形状を導入し、ファーストパーティアイコンをボヤけた「Liquid Glass」 appearances に変更したと報告している。多くの人にとってこれはデザインと使いやすさにおける重大な後退だと見られている。サードパーティ製アイコンをこの指定された squircle 形状に強制することで、ユーザーが迅速な識別のために頼りにしていた多様な形状はなくなり、色が主な識別基準になった——特に色覚障害を持つユーザーや類似の色を持つアプリを区別する際には深刻な問題となった。コンプライアンスに反するサードパーティ製アイコンは縮小され、魅力的でない灰色の背景上に表示され、「icon jail」シナリオが引き起こされたほか、Apple の新しい「Clear」と「Tinted」アイコンスタイルは採用率が低かった。これは統一された squircle により識別がほぼ不可能になりつつあったためである。内部的なフィードバックチケット(FB23388490)でこれらの制限への異議が申し立てられたにもかかわらず、macOS 27「Golden Gate」の初期ベータ版では余計な「Liquid Glass」を取り除き、シャープなデザインを復活させ、Automator などのファーストパーティアイコンを見直し、部分的な改善が見られる。Kafasis は、Apple がサードパーティ製アプリに対して単一の squircle 形状を強制することをやめ、多様なアイコン形状を許可してアクセシビリティ、創造性、および総合的な使いやすさを向上させることを求めつつある。

Ornith-1.0:自律型コーディングのための自己スケーフォールディングLLM | そっか~ニュース