Ornith-1.0:エージェンティックコーディング用自己改善型オープンソースモデル

2026/06/30 2:16

Ornith-1.0:エージェンティックコーディング用自己改善型オープンソースモデル

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

以下の改良された要約は、すべての欠落要素を取り込みつつ明瞭性を維持しています:

Ornith-1.0 は、MIT ライセンスのもとグローバルなアクセス可能性を確保すべく公開され、特定のエイジェントコーディングタスク向けに設計されたオープンソースの自己改善型 AI モデルファミリーです。このスイートには 4 つの異なるサイズのモデルが含まれており、9B-Dense モデル(単一 GPU マシン向けに最適化)および 35B および 397B パラメータを持つ MoE ベースの変種(マルチノードクラスター向け)が備わっています。すべてのモデルは Gemma 4 と Qwen 3.5 のアーキテクチャを基盤としており、Terminal-Bench 2.1、SWE-bench、NL2Repo、OpenClaw といったエイジェントコーディングベンチマークにおいて最先端の性能を発揮しています。これは、ソリューションロールアウトとコードスキャフォールドを同時に最適化する強化学習フレームワークによって達成されています。例えば、397B の変種は Terminal-Bench 2.1 で 77.5、SWE-bench Verified で 82.4 というトップクラスの結果を達成し、9B モデルは Terminal-Bench 2.1 で 43.1 というスコアを得ています。モデルは最大 256K のコンテキストウィンドウをサポートし、llama.cpp/Ollama を介したローカル推論のために bf16、FP8、GGUF クアンタIZED バージョン等多种の形式で利用可能です。統合は大規模なエイジェントフレームワーク(OpenHands や Hermes Agent など)と標準的な OpenAI 互換インターフェースまたは MCP サーバーを通じてシームレスに行われ、最近のランタイム(Transformers ≥ 5.8.1 および vLLM ≥ 0.19.1)のみが必要です。現在のデフォルト動作は最終回答前に推論ブロックを含めて明瞭性を高めるものであり、今後のアップデートではこの分離の refinement を目指しています。

本文

Ornith-1.0:エージェント型コーディング用オープンソースモデル

Ornith-1.0 は、自律的なコード作成(エージェント型コーディング)に向けた自己改善型のオープンソースモデルです。

ハイライト

  • 最先端の性能: Gemma 4 および Qwen 3.5 を基盤に後トレーニングされ、Terminal-Bench 2.1SWE-Benchなど主要なベンチマークでトップクラスのパフォーマンスを記録しています。
    • 提供されているバージョン:9B-Dense、31B-Dense、35B-MoE、397B-MoE の 4 つ。
  • 自己改善型フレームワーク: 強化学習(RL)を用いて、単なるコード実行だけでなく、**スカルフォールド(構造的なサポート手順書)**も同時に学習・最適化します。これにより高品質なソリューションが生成されます。
  • 利用制限なし: MIT ライセンスであり、世界中で自由に利用・アクセス可能です。

ベンチマーク結果

各モデルはサイズに相応しい基準モデルと比較して評価されています(全ての評価に同じ設定を使用)。

Ornith-1.0-9B

Ornith-1.0-9B は Qwen3.5 や Gemma4 の 9B/31B モデルを上回り、SWE-bench Verified で69.4%、Claw-eval Avg で**63.1%**のスコアを達成。

モデルSWE-bench VerifiedSWE-bench ProClaw-eval Avg
Ornith-1.0-9B69.442.963.1
Qwen3.5-35B70.044.265.4
Gemma4-31B52.035.748.5

Ornith-1.0-35B

Ornith-1.0-35B は同等クラスの Qwen3.5-35B または Gemma4-31B を凌ぎ、SWE-bench Verified で75.6%、Claw-eval Avg で**69.8%**のスコアを記録。

モデルSWE-bench VerifiedSWE-bench ProClaw-eval Avg
Ornith-1.0-35B75.650.469.8
Qwen3.5-397B76.451.670.7
GLM-5.2-744B-62.1-

Ornith-1.0-397B

超大規模モデルとして、Claude Opus 4.8 に次ぐ SWE-bench Verified スコアを記録。SWE Atlas RF で**42.6%**という高スコアを発揮しました。

モデルSWE-bench VerifiedSWE-bench ProSWE Atlas - RF
Ornith-1.0-397B82.462.242.6
Qwen3.5-397B76.451.618.4
Claude Opus 4.887.669.2-

: Terminal-Bench, SWE-bench, NL2Repo など、主要ベンチマークの詳細数値と評価設定については公式データ表を参照してください。


クイックスタート

環境要件(インストール) 推論モデルを使用するため、以下の最新ランタイムが必要です。

  • Transformers
    ≥ 5.8.1
  • vLLM
    ≥ 0.19.1
  • SGLang
    ≥ 0.5.9

推奨パラメータ ベンチマークを再現するには

temperature=1.0
ですが、通常推論では
temperature=0.6
が推奨されます。

  • top_p
    : 0.95
  • top_k
    : 20

チェックポイントの種類

チェックポイントアーキテクチャ用途・特徴
Ornith-1.0-9B
Dense (~9B)シングル GPU でのサービス・ファインチューニング
Ornith-1.0-9B-GGUF
GGUF (量子化)
llama.cpp
/
Ollama
によるローカル推論
Ornith-1.0-35B
MoE (35B)フル精度マルチ GPU サービス
Ornith-1.0-35B-FP8
FP8メモリ使用量を約半減(FP8 対応 GPU)
Ornith-1.0-397B
MoE (397B)マルチ GPU ノードでのフル精度サービス
Ornith-1.0-397B-FP8
FP8メモリ効率的な超大規模モデル推論

サービス提供(サービング)

OpenAI 互換インターフェースで、以下のレシピを参照して起動してください。VRAM 制限がある場合は

-FP8
バージョンを使用します。

vLLM サーバー起動

MODEL=deepreinforce-ai/Ornith-1.0-397B

# MoE モデルの場合は --tensor-parallel-size を指定 (Dense モデルは除外)
vllm serve $MODEL \
    --served-model-name Ornith-1.0 \
    --tensor-parallel-size 8 \
    --host 0.0.0.0 --port 8000 \
    --max-model-len 262144 \
    --gpu-memory-utilization 0.90 \
    --enable-prefix-caching \
    --enable-auto-tool-choice --tool-call-parser qwen3_xml \
    --reasoning-parser qwen3 \
    --trust-remote-code

SGLang サーバー起動

MODEL=deepreinforce-ai/Ornith-1.0-397B

python -m sglang.launch_server \
    --model-path $MODEL \
    --served-model-name Ornith-1.0 \
    --tp 8 \
    --host 0.0.0.0 --port 8000 \
    --context-length 262144 \
    --mem-fraction-static 0.85 \
    --tool-call-parser qwen3_coder \
    --reasoning-parser qwen3

ローカル推論(Transformers)

最新の Python スクリプトやオフラインテストに便利です。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "deepreinforce-ai/Ornith-1.0-9B"  # または -35B / -397B

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "is_prime(n) という Python 関数を短いものを書く。"}
]

text = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)

inputs = tokenizer(text, return_tensors="pt").to(model.device)
generated = model.generate(**inputs, max_new_tokens=512, do_sample=True, temperature=0.6)

output_ids = generated[0][inputs.input_ids.shape[1]:]
content = tokenizer.decode(output_ids, skip_special_tokens=True)
print(content)

Chat Completions API とツール連携

vLLM や SGLang サーバーを起動し、任意の OpenAI 互換クライアントからアクセス可能です。

基本的なチャット機能

推論トレース (

reasoning_content
) と最終回答 (
content
) が分離された形式で出力されます。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="EMPTY"
)

response = client.chat.completions.create(
    model="Ornith-1.0",
    messages=[{"role": "user", "content": "数を 2 乗する Python の lambda 式を書いてください。"}],
    temperature=0.6, top_p=0.95, max_tokens=1024,
)

print("reasoning:", getattr(response.choices[0].message, "reasoning_content", None))
print("answer:", response.choices[0].message.content)

ツール呼び出し(Tool Calls)

モデルは標準的な

tool_calls
フィールドで関数呼び出しを出力します。

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "都市の現在の天気を取得する",
            "parameters": {
                "type": "object", "properties": {"city": {"type": "string"}}, "required": ["city"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="Ornith-1.0",
    messages=[{"role": "user", "content": "今のパリの天気はどうですか?"}],
    tools=tools, tool_choice="auto", max_tokens=2048,
)

tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name, tool_call.function.arguments)
# 出力例: get_weather {"city": "Paris"}

エージェント型使い方 (Agentic Usage)

Ornith-1.0 はツール呼び出し能力に優れ、標準のエージェントフレームワークとすぐに連携できます。

MCP サーバー経由の接続例

import os
from openai import OpenAI

client = OpenAI(
    base_url=os.getenv("OPENAI_BASE_URL", "http://localhost:8000/v1"),
    api_key=os.getenv("OPENAI_API_KEY", "EMPTY"),
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "run_shell",
            "description": "シェルコマンドを実行し、その出力を返す。",
            "parameters": {"type": "object", "properties": {"command": {"type": "string"}}, "required": ["command"]}
        }
    }
]

response = client.chat.completions.create(
    model="Ornith-1.0", messages=[{"role": "user", "content": "現在のディレクトリの Python ファイルをリストしてください。"}],
    tools=tools, temperature=0.6
)
print(response.choices[0].message)

既存のエージェントハネスとの互換性

以下のツールは OpenAI 互換エンドポイントをそのまま利用可能です。

  • Hermes Agent:
    OPENAI_BASE_URL
    を設定するだけで利用可能。
  • OpenHands:
    openai/Ornith-1.0
    というプレフィックスで指定。
    pip install openhands-ai
    export LLM_MODEL="openai/Ornith-1.0"
    export LLM_BASE_URL="http://localhost:8000/v1"
    
  • llama.cpp / Ollama: GGUF バージョン(9B, 35B)を直接ロード。
    # llama.cpp
    llama-server -hf deepreinforce-ai/Ornith-1.0-9B-GGUF --port 8000 -c 262144
    
    # Ollama
    ollama run hf.co/deepreinforce-ai/Ornith-1.0-9B-GGUF
    
  • Unsloth Studio: ローカルでの高速推論・ファインチューニング。
  • OpenClaw: オープンソースエージェントとして利用可能。

コーディング向け CLI: OpenCode

ローカルエンドポイントをプロバイダーとして登録し、大規模コードベースを理解・自動化します。

// ~/.config/opencode/opencode.json
{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "ornith": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "Ornith (local)",
      "options": { "baseURL": "http://localhost:8000/v1", "apiKey": "EMPTY" },
      "models": { "Ornith-1.0": { "name": "Ornith-1.0" } }
    }
  }
}

引用(Citation)

本研究成果を引用する際は、以下を参照してください。

@misc{ornith-1.0,
    title = {{Ornith-1.0}: エージェント型コーディング、全員向け},
    url = {https://deep-reinforce.com/ornith_1_0.html},
    author = {{DeepReinforce チーム}},
    year = {2026}
}

同じ日のほかのニュース

一覧に戻る →

2026/06/30 4:49

/.self: ホスト環境を構築することを支援する新しいトップレベルドメイン

## 日本語訳: 本件の核心となるメッセージは、ユーザーのデータや注意を搾取する既存のモデルを捨て、倫理的な新アーキテクチャへとインターネットを変革する呼びかけです。Human-Centered Computing Foundation は、ICANN の Applicant Support Program を通じてこのイニシアチブを正式に開始し、その主な目標として、倫理的技術にのみ専属 reserved されるトップレベルドメイン(TLD)の確保を目指しています。この動きは、人間の行動から価値を抽出するという業界の確立されたダイナミクスに直接挑戦し、代わりに人間中心の価値に基づいたシステムを提案しています。 もしこの新しいドメイン拡張を取得することに成功すれば、同財団はユーザーエシクティクスをデータマイニングよりも優先するプロジェクトのみがホストされる特定のデジタル空間を作成します。この転換は大きな利益をもたらすと約束しており、個人は企業の監視ではなく自らの道徳的原則を中心に設計された Web 環境を航行することができます。企業にとっては、持続的な成功には単に注意を採取するのではなく、真の人間のニーズを満たすアーキテクチャが不可欠になる、避けられない未来を示しています。最終的に、このキャンペーンは、技術が人々を利用するために操作するのではなく、人々をサービスするためのセクターとして、誠実さを定義されたインターネットの別個の分野を確立することを目指しています。

2026/06/30 2:05

Qwen 3.6 27B はローカル開発のsweet spot(最適解)です。

## Japanese Translation: 本文は、ローカルコード生成のために Qwen 3.6 27B デンスモデルを優先すること advises(推奨)しています。これは、指示追従の精度と効率的なパフォーマンスのバランスが取れており、Node パッケージの作成といった特定のタスクで失敗する可能性があるように 35B の A3B mixture-of-experts などのより大きなバリエーションを上回る場合があるためです。ベンチマークによると、このモデルは消費者向けハードウェア上で効率的に動作しながら、2025 年の中盤の GPT-5 程度の知能レベルに達します。Apple M5 チップ(共有 RAM を最大 48 GB 使用)では約 30 トokens/秒、量子化された状態で高級な Nvidia RTX 5090 カードでは 50 トokens/秒 にスケールします。重要なのは、著者が倫理的かつ技術的な理由から、Ollama ではなく `llama-server` または `llama-cli` を使用して Hugging Face の量子化版(例:`unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0`)でモデルを実行することを推奨している点です。この構成により、開発者は OpenCode エージェントなどのツールと互換性のあるセキュアな「vibe coding」環境を構築できます。ローカルでモデルを実行することは、データのプライバシーを維持し、機密情報が外部の米中クラウドプロバイダーに漏洩することなく、オフラインでの作業をサポートするために不可欠です。将来的にはツールの呼び出しを通じて事実知識と生粋の知能を分ける傾向があるかもしれませんが、この即席のソリューションは品質を損なうことなく、個人および小規模チームの開発者にとってアクセス可能な入門点を提供します。より大きなモデルが将来的にはエンタープライズレベルのハードウェアを必要とするでしょうが、27B バリエーションは現在、標準的な消費者向けハードウェア上で DeepSeek-V4 Flash などのフロンティア代替案と比較できる堅牢でプライベートな AI 機能を 제공합니다(提供しています)

2026/06/28 0:05

アイコンを解放せよ

## Japanese Translation: 2026 年 6 月 26 日付の投稿で、Paul Kafasis は、macOS 26「Tahoe」がすべてのアプリアイコンに対して義務付けられた統一された「squircle」形状を導入し、ファーストパーティアイコンをボヤけた「Liquid Glass」 appearances に変更したと報告している。多くの人にとってこれはデザインと使いやすさにおける重大な後退だと見られている。サードパーティ製アイコンをこの指定された squircle 形状に強制することで、ユーザーが迅速な識別のために頼りにしていた多様な形状はなくなり、色が主な識別基準になった——特に色覚障害を持つユーザーや類似の色を持つアプリを区別する際には深刻な問題となった。コンプライアンスに反するサードパーティ製アイコンは縮小され、魅力的でない灰色の背景上に表示され、「icon jail」シナリオが引き起こされたほか、Apple の新しい「Clear」と「Tinted」アイコンスタイルは採用率が低かった。これは統一された squircle により識別がほぼ不可能になりつつあったためである。内部的なフィードバックチケット(FB23388490)でこれらの制限への異議が申し立てられたにもかかわらず、macOS 27「Golden Gate」の初期ベータ版では余計な「Liquid Glass」を取り除き、シャープなデザインを復活させ、Automator などのファーストパーティアイコンを見直し、部分的な改善が見られる。Kafasis は、Apple がサードパーティ製アプリに対して単一の squircle 形状を強制することをやめ、多様なアイコン形状を許可してアクセシビリティ、創造性、および総合的な使いやすさを向上させることを求めつつある。

Ornith-1.0:エージェンティックコーディング用自己改善型オープンソースモデル | そっか~ニュース