**AI2:オープンコーディングエージェント**

2026/01/28 2:17

**AI2:オープンコーディングエージェント**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
AI2 は Open Coding Agents(SERA)をリリースしました。これは、商用モデルのコストのごく一部で、高性能なプライベートデータ向けコード補完アシスタントを構築できるオープンソースツールキットです。Qwen‑3 を基盤とし、最大 64 K のコンテキストを持つ SERA‑32B は、わずか 40 GPU 日(NVIDIA Hopper または RTX PRO 6000 GPU 2 台)で訓練すると、SWE‑Bench Verified 問題の 54.2 % を解決します。
システムは Soft‑Verified Generation (SVG) を使用して部分的に正しいパッチを生成し、完全な正当性テストの必要性を排除することでデータ生成コストを劇的に削減します。51 のバグパターンからなる分類体系が合成トラジェクトリ生成を駆動し、現実的な開発者ワークフローシミュレーションを提供します。プライベートコードベースで 8 k 合成サンプル(約 $1,300)だけで微調整すると、110B パラメータの教師モデル(GLM‑4.5‑Air)を上回る性能が得られます。
NVIDIA の推論最適化により、トークンレートは BF16 で約 1,950 tps(4×H100)、FP8 で約 3,700 tps、NVFP4(Blackwell 4×B200)で最大約 8,600 tps に達し、SERA を本番稼働に適した状態にします。モデル・トレーニングレシピ・合成データを含む全リリースはオープンソースであり、最高の結果を再現するには一般的な GPU で約 $400 のコストだけです。軽量な二行 CLI が推論サーバーを起動し、導入障壁を低減して迅速な実験を促進します。
AI2 は再現性に重点を置き、すべてのモデル、コード、生成データ、およびパイプラインを複製または適応できる完全なレシピを公開しています。

この改訂された概要は、主要ポイントを網羅し、不要な推測を避け、明確で簡潔なメッセージを提示します。

本文

過去一年間、コーディングエージェントは開発者がソフトウェアを書き、テストし、保守する方法を変革しました。
これらのシステムはデバッグ・リファクタリング・プルリクエストの提出まで可能であり、ソフトウェア開発の姿勢自体を根本的に変えています。
しかし、この進歩にもかかわらず、ほとんどのコーディングエージェントは同じ制約を共有しています:閉じたモデルであること、トレーニングが高価であること、プライベートコードベースに対して研究・適応しづらいという点です。

Ai2 Open Coding Agents はそれを変えます。
本日、我々は強力なオープンソースコーディングモデルだけではなく、任意のコードベース(個人用もしくは組織内の内部コード)で自分自身のエージェントを構築するためのトレーニング手法を公開します。
コード生成・レビュー・デバッグ・保守・説明など多様なタスクに対して、オープンモデルが内部コードを見たことがなくても動作しませんが、プライベートデータでトレーニングすれば学習できます。
しかし、プライベートコードベースから合成トレーニングデータを生成するのは難しくコストも高いという課題があります。
我々の手法なら、以前最高だったオープンソースモデルの性能再現にかかる計算量は約400ドル(同規模で業界最先端と競合する性能なら12,000ドル)です。
これにより、研究室や小規模チームでも手軽に利用可能になります。

リソース制約を踏まえ、データ品質・推論コスト・モデル選択の各段階で効率化しました。その結果:

  • SWE‑smith(合成データ手法)と比べて57倍低コスト
  • SkyRL(オープンソース強化学習システム)と比べて26倍低コスト

という成果を達成しています。


Open Coding Agents ファミリー第1リリース:SERA (Soft‑verified Efficient Repository Agents)

SERA‑32B

  • 性能: SWE‑Bench Verified の54.2 % を解決
  • 比較: 同規模・同長さのオープンソース最先端モデルを上回る
  • トレーニングコスト: 40 GPU日(NVIDIA HopperまたはRTX PRO 6000 Blackwell Server Edition)で完了

SERA モデルは Claude Code と即座に互換性があり、微調整手法により自身のコードベース(エンジニアリングスタック・慣習を含む)に迅速かつ低コストで適応できます。

NVIDIA との協力

  • SERA 推論を NVIDIA の高速化インフラ向けに最適化
  • BF16 精度で 4 × H100 GPU を使用すると、1,950 トークン/秒(16k コンテキストウィンドウ)
  • FP8 精度では 3,700 トークン/秒(ほぼ精度低下なし)
  • Blackwell の 4 × B200 システムで NVFP4 を使用すると、約8,600 トークン/秒へ拡張

全てがオープン

モデル・Claude Code 統合・トレーニングレシピをすべて公開し、1 行のコードで起動可能。
LLM トレーニング経験がなくても利用できます。
さらに、最先端のトレーニングデータも公開し、研究者は何が有効だったか検証・拡張できるようにしています。

重要な成果

  • プライベートデータへの適応:SERA は内部コードベースなどプライベートデータへ容易に適応できます。
  • 教師エージェントの上回り:例として、SERA‑32B は 110 B パラメータ教師(GLM‑4.5‑Air)をわずか8,000 サンプルで学習し、1,300ドルのコストで超えることが確認されています。
  • シンプルなパイプライン:大規模 RL インフラやエンジニアリングチーム不要で、再現性と拡張性を兼ね備えています。

1. データに特化したエージェントの課題

  • 小〜中規模企業・個人開発者は顧客データとの相互作用が独自であり、公開モデルでは見たことがありません。
  • プライベートコードから合成データを生成することが難しい。
  • 真に最先端のトレーニングデータを低設定で取得し、学習したモデルが本当にエージェント的行動を学んだか確認できる手段が不足。

我々の解決策:ポスト・トレーニングアプローチ

  • Soft‑verified generation (SVG)
    • コーディングデータは「正しい」パッチだけでなく「部分的に正しい」パッチでも学習可能。
    • 完全な検証を不要にし、インフラコストと生成コストを削減。
  • バグタイプメニューでのスケーリング
    • 51 の一般的なバグパターンから複数のプロンプトを生成し、1,000 関数あたり数万件の多様なエージェント軌跡を低コストで作成。
  • 高いシミュレートワークフロー忠実度
    • 正確性よりも「開発者が実際に行う手順」に近いデータが重要とする洞察。
    • SVG と組み合わせることで、リポジトリ全体を対象に合成データ生成を拡張可能。

2. パフォーマンス & アクセス性

  • Qwen3 ベースで 8 B〜32 B のモデルファミリーを構築。
  • 最大32K コンテキスト長までトレーニング。
  • 現在のパイプラインは「安価・実行可能」で、誰でもカスタマイズして再試行できる設計。

パフォーマンス比較

コンテキストSERA‑32BDevstral Small 2GLM‑4.5‑Air
32K49.5 % ±1.950.0 % ±1.350.5 % ±1.3
64K54.2 % ±1.4
  • SERA‑32B は純粋な SFT(教師なし)であり、同規模の長コンテキスト評価でも約0.5ポイント、4.9ポイントの差を縮小。
  • 教師モデルは GLM‑4.6 が最高だが、GLM‑4.5‑Air も低コストで十分に近い性能。

プライベートリポジトリでの検証

  • Django, SymPy, Sphinx(SWE‑Bench 上位3大リポジトリ)を対象。
  • 8,000 合成軌跡で学習したモデルは、32K コンテキストでそれぞれ 52.23 % (Django) / 51.11 % (SymPy) を達成し、教師よりも上回るケースが多数。
  • これにより、プライベートコードベースでの適応が実用的かつ効果的であることを示唆。

3. 開発者・研究者向け設計

  • 2 行コード で推論サーバー起動可能。
  • Claude Code と直接統合できる設定スクリプトと最適化済み推論実装。

オープン性と再現性へのコミットメント

内容詳細
モデル・コードすべて公開
エージェントデータ生成済みの合成データも公開
トレーニングパイプライン標準 SFT(RL 基盤不要)
コスト- 業界最高オープンソース成果再現:≈400 ドル
- Devstral Small 2 などトップオープンウェイトモデル再現:12,000 ドル
  • 目標: 強力なコーディングエージェントの実装コストを数百ドルに抑え、広範囲の研究者が利用できるようにする。
  • これにより、限定された資金しか持たないラボでも「エージェンティック・コーディング」を実践可能になります。

リンク

  • Models: [リンク]
  • Tech Report: [リンク]
  • SERA CLI: [リンク]
  • CLI on PyPi: [リンク]

まとめ

Ai2 のオープンコーディングエージェントは、プライベートコードベースへの適応を可能にし、低コストで高性能なエージェントを提供します。
SERA は「合成データ生成」「ソフト検証」「バグタイプメニュー」などの革新的手法により、従来の RL ベースや大規模インフラを必要としないシンプルかつ再現性の高いパイプラインを実現。
これにより、開発者・研究者・小規模チームがエージェンティックなコーディングを手軽に活用できる未来へ一歩近づきました。

同じ日のほかのニュース

一覧に戻る →

2026/01/28 4:20

Chrome Canary でテキスト拡大・縮小のサポートをお試しください。

## 日本語訳: --- ## 要約 Chrome Canary は、ウェブページ上でオペレーティングシステムのテキストサイズ設定を尊重するようブラウザに指示する新しいメタタグ `<meta name="text‑scale">` の利用をユーザーが選択できるようになりました。 この機能はまだ実験的で、オプトインフラグによって制御されています。 2024 年夏に CSS Working Group に提案され、CSS Fonts 5 仕様に追加されたもので、サイトがシステムテキストスケーリングを尊重するよう設計されていることを示します。 モバイルユーザーの約三分の一(Android 約 37%、iOS 約 34%)が OS テキストサイズを調整していますが、ほとんどのブラウザはこれらの設定を無視しています。 Safari と Chrome はスキップし、Firefox for Android はページズームを使用します。 グローバルサポートを有効にするとデスクトップレイアウトが壊れる可能性があります(例:フォントサイズが倍になると LinkedIn のページが崩れます)。 したがって慎重な実装が必要です。 **開発者向けベストプラクティスチェックリスト:** 1. **初期 CSS `font-size` を上書きしないでください。** デフォルトを medium(約 16 px)に設定するか、パーセンテージ値を使用します。 2. **コンテンツ要素にはフォント相対単位(em, rem)のみを使用してください。** 必要がない限り、マージン・パディング・ギャップには使用しません。 3. **開発者ツールで 320 px ビューポートに 200 % テキストスケールをシミュレートし、`env(preferred-text-scale)` 関数を使ってテストしてください。** 未解決の質問があります:大きな見出しは本文より低い倍率で拡大すべきでしょうか(例:32 px → 64 px)? ブラウザは今年後半に `<meta name="text‑scale">` をサポートする可能性がありますが、他のエンジンについては確認されたタイムラインはありません。 追加議論とドキュメントは CSS Day 2026(6 月)で予定されています。 広く採用されれば、デザインを壊すことなくアクセシビリティ設定に対応できるようになります—ただしレイアウトの崩れを防ぐためにスペーシング単位を管理する必要があります。

2026/01/28 5:35

タイムステーション・エミュレータ

## Japanese Translation: > ## 要約 > タイムステーションエミュレーターは、スマートフォンやタブレットを低周波ラジオ送信機に変換し、ほとんどの原子時計や腕時計の同期に使用できる時間信号を放送します。NTP スタイルのアルゴリズムを用いて ±24 h のオフセットを許容し、自動的に夏時間変更と DUT1 うるう秒補正(適宜)を適用することで、BPC、DCF77、JJY、MSF、および WWVB の5つの公式局をエミュレートします。ツールは WebAssembly を介してブラウザ上で完全に動作し、インストールやデータ収集は不要です。また、44.1 kHz PCM 出力以上の DAC サポートがあれば十分です。 > > パフォーマンスは内蔵スピーカーで最も優れています。有線ヘッドホンでも動作しますが、Bluetooth やオーディオフィーバー機器では搬送波のサブハーモニック変調に必要な高周波共振子を歪めることがあります。2024 年初頭時点で iOS の Safari と Android の Firefox は不具合があり、機能しません。ユーザーは希望する局を選択し時計パラメータを設定した後、電話のスピーカーを時計のアンテナに近づけます。音声波形は、搬送波周波数のサブハーモニック変調によって実際のタイムステーション放送を模倣する RF ノイズを生成するよう設計されています。 > > エミュレーターは最大ボリュームで再生すると永久的な聴覚障害を引き起こす可能性があるため、スピーカーを直接聞くことを避けるよう警告します。ホストサイトは <https://timestation.pages.dev/> であり、そのソースコード(Unicode とアイコン資産を含む)は MIT ライセンスに準拠し、適切な帰属要件が課されています。

2026/01/28 3:57

レナート・ポッタリングとクリスチャン・ブラウナーは新しい会社を設立しました。

## Japanese Translation: まとめはすでにKey Pointsリストと完全に一致しているため、変更の必要はありません。