**AI2：オープンコーディングエージェント**

Japanese Translation:

概要：
AI2 は Open Coding Agents（SERA）をリリースしました。これは、商用モデルのコストのごく一部で、高性能なプライベートデータ向けコード補完アシスタントを構築できるオープンソースツールキットです。Qwen‑3 を基盤とし、最大 64 K のコンテキストを持つ SERA‑32B は、わずか 40 GPU 日（NVIDIA Hopper または RTX PRO 6000 GPU 2 台）で訓練すると、SWE‑Bench Verified 問題の 54.2 % を解決します。
システムは Soft‑Verified Generation (SVG) を使用して部分的に正しいパッチを生成し、完全な正当性テストの必要性を排除することでデータ生成コストを劇的に削減します。51 のバグパターンからなる分類体系が合成トラジェクトリ生成を駆動し、現実的な開発者ワークフローシミュレーションを提供します。プライベートコードベースで 8 k 合成サンプル（約 $1,300）だけで微調整すると、110B パラメータの教師モデル（GLM‑4.5‑Air）を上回る性能が得られます。
NVIDIA の推論最適化により、トークンレートは BF16 で約 1,950 tps（4×H100）、FP8 で約 3,700 tps、NVFP4（Blackwell 4×B200）で最大約 8,600 tps に達し、SERA を本番稼働に適した状態にします。モデル・トレーニングレシピ・合成データを含む全リリースはオープンソースであり、最高の結果を再現するには一般的な GPU で約 $400 のコストだけです。軽量な二行 CLI が推論サーバーを起動し、導入障壁を低減して迅速な実験を促進します。
AI2 は再現性に重点を置き、すべてのモデル、コード、生成データ、およびパイプラインを複製または適応できる完全なレシピを公開しています。

この改訂された概要は、主要ポイントを網羅し、不要な推測を避け、明確で簡潔なメッセージを提示します。

過去一年間、コーディングエージェントは開発者がソフトウェアを書き、テストし、保守する方法を変革しました。
これらのシステムはデバッグ・リファクタリング・プルリクエストの提出まで可能であり、ソフトウェア開発の姿勢自体を根本的に変えています。
しかし、この進歩にもかかわらず、ほとんどのコーディングエージェントは同じ制約を共有しています：閉じたモデルであること、トレーニングが高価であること、プライベートコードベースに対して研究・適応しづらいという点です。

Ai2 Open Coding Agents はそれを変えます。
本日、我々は強力なオープンソースコーディングモデルだけではなく、任意のコードベース（個人用もしくは組織内の内部コード）で自分自身のエージェントを構築するためのトレーニング手法を公開します。
コード生成・レビュー・デバッグ・保守・説明など多様なタスクに対して、オープンモデルが内部コードを見たことがなくても動作しませんが、プライベートデータでトレーニングすれば学習できます。
しかし、プライベートコードベースから合成トレーニングデータを生成するのは難しくコストも高いという課題があります。
我々の手法なら、以前最高だったオープンソースモデルの性能再現にかかる計算量は約400ドル（同規模で業界最先端と競合する性能なら12,000ドル）です。
これにより、研究室や小規模チームでも手軽に利用可能になります。

リソース制約を踏まえ、データ品質・推論コスト・モデル選択の各段階で効率化しました。その結果：

SWE‑smith（合成データ手法）と比べて57倍低コスト
SkyRL（オープンソース強化学習システム）と比べて26倍低コスト

という成果を達成しています。

Open Coding Agents ファミリー第1リリース：SERA (Soft‑verified Efficient Repository Agents)

SERA‑32B

性能: SWE‑Bench Verified の54.2 % を解決
比較: 同規模・同長さのオープンソース最先端モデルを上回る
トレーニングコスト: 40 GPU日（NVIDIA HopperまたはRTX PRO 6000 Blackwell Server Edition）で完了

SERA モデルは Claude Code と即座に互換性があり、微調整手法により自身のコードベース（エンジニアリングスタック・慣習を含む）に迅速かつ低コストで適応できます。

NVIDIA との協力

SERA 推論を NVIDIA の高速化インフラ向けに最適化
BF16 精度で 4 × H100 GPU を使用すると、1,950 トークン/秒（16k コンテキストウィンドウ）
FP8 精度では 3,700 トークン/秒（ほぼ精度低下なし）
Blackwell の 4 × B200 システムで NVFP4 を使用すると、約8,600 トークン/秒へ拡張

全てがオープン

モデル・Claude Code 統合・トレーニングレシピをすべて公開し、1 行のコードで起動可能。
LLM トレーニング経験がなくても利用できます。
さらに、最先端のトレーニングデータも公開し、研究者は何が有効だったか検証・拡張できるようにしています。

重要な成果

プライベートデータへの適応：SERA は内部コードベースなどプライベートデータへ容易に適応できます。
教師エージェントの上回り：例として、SERA‑32B は 110 B パラメータ教師（GLM‑4.5‑Air）をわずか8,000 サンプルで学習し、1,300ドルのコストで超えることが確認されています。
シンプルなパイプライン：大規模 RL インフラやエンジニアリングチーム不要で、再現性と拡張性を兼ね備えています。

1. データに特化したエージェントの課題

小〜中規模企業・個人開発者は顧客データとの相互作用が独自であり、公開モデルでは見たことがありません。
プライベートコードから合成データを生成することが難しい。
真に最先端のトレーニングデータを低設定で取得し、学習したモデルが本当にエージェント的行動を学んだか確認できる手段が不足。

我々の解決策：ポスト・トレーニングアプローチ

Soft‑verified generation (SVG)
- コーディングデータは「正しい」パッチだけでなく「部分的に正しい」パッチでも学習可能。
- 完全な検証を不要にし、インフラコストと生成コストを削減。
バグタイプメニューでのスケーリング
- 51 の一般的なバグパターンから複数のプロンプトを生成し、1,000 関数あたり数万件の多様なエージェント軌跡を低コストで作成。
高いシミュレートワークフロー忠実度
- 正確性よりも「開発者が実際に行う手順」に近いデータが重要とする洞察。
- SVG と組み合わせることで、リポジトリ全体を対象に合成データ生成を拡張可能。

2. パフォーマンス & アクセス性

Qwen3 ベースで 8 B〜32 B のモデルファミリーを構築。
最大32K コンテキスト長までトレーニング。
現在のパイプラインは「安価・実行可能」で、誰でもカスタマイズして再試行できる設計。

パフォーマンス比較

コンテキスト	SERA‑32B	Devstral Small 2	GLM‑4.5‑Air
32K	49.5 % ±1.9	50.0 % ±1.3	50.5 % ±1.3
64K	54.2 % ±1.4	—	—

SERA‑32B は純粋な SFT（教師なし）であり、同規模の長コンテキスト評価でも約0.5ポイント、4.9ポイントの差を縮小。
教師モデルは GLM‑4.6 が最高だが、GLM‑4.5‑Air も低コストで十分に近い性能。

プライベートリポジトリでの検証

Django, SymPy, Sphinx（SWE‑Bench 上位3大リポジトリ）を対象。
8,000 合成軌跡で学習したモデルは、32K コンテキストでそれぞれ 52.23 % (Django) / 51.11 % (SymPy) を達成し、教師よりも上回るケースが多数。
これにより、プライベートコードベースでの適応が実用的かつ効果的であることを示唆。

3. 開発者・研究者向け設計

2 行コード で推論サーバー起動可能。
Claude Code と直接統合できる設定スクリプトと最適化済み推論実装。

オープン性と再現性へのコミットメント

内容	詳細
モデル・コード	すべて公開
エージェントデータ	生成済みの合成データも公開
トレーニングパイプライン	標準 SFT（RL 基盤不要）
コスト	- 業界最高オープンソース成果再現：≈400 ドル - Devstral Small 2 などトップオープンウェイトモデル再現：12,000 ドル

目標: 強力なコーディングエージェントの実装コストを数百ドルに抑え、広範囲の研究者が利用できるようにする。
これにより、限定された資金しか持たないラボでも「エージェンティック・コーディング」を実践可能になります。

リンク

Models: [リンク]
Tech Report: [リンク]
SERA CLI: [リンク]
CLI on PyPi: [リンク]

まとめ

Ai2 のオープンコーディングエージェントは、プライベートコードベースへの適応を可能にし、低コストで高性能なエージェントを提供します。
SERA は「合成データ生成」「ソフト検証」「バグタイプメニュー」などの革新的手法により、従来の RL ベースや大規模インフラを必要としないシンプルかつ再現性の高いパイプラインを実現。
これにより、開発者・研究者・小規模チームがエージェンティックなコーディングを手軽に活用できる未来へ一歩近づきました。