
2025/12/18 1:45
The State of AI Coding Report 2025
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
AI 主導のコーディングツールは、開発者の生産性を著しく向上させ、インフラストラクチャーおよび SDK プロバイダー市場を再構築しています。プルリクエストは 33 % 増加し、1 人あたりのコード行数が 4,450 行から 7,839 行に増加しました。中規模チームは現在、1 チームあたり 13,000 行を超えるコードを書き、ファイルごとの中央値変更件数も 20 % 上昇しています。AI メモリインフラストラクチャーでは、mem0 が 59 % のシェアで圧倒的に優位であり、Weaviate は 25 % を占めています。その他の 6 社は合わせて残りの 10‑25 % を保持しています。SDK に関しては、Anthropic のダウンロード数が 8 倍増加し 4,300 万件(2023 年 4 月以降で 1,547 倍)に達しました。LangSmith は月間ダウンロード数 1億1,000 万件を記録し、OpenAI が 1億3,000 万件でリードしています。CLAUDE.md の採用率は 67 % に達し、Pydantic AI は 600 万件のダウンロード(成長率 3.7 倍)を達成しました。OpenAI と Anthropic のダウンロード比率の差は縮小しており、より多くの開発者が Anthropic の製品へ移行し、追加のメモリインフラストラクチャー提供者も注目される可能性があります。ユーザーと企業にとっては、これにより高速で高品質なコード生成が実現し、ベンダー選択や競争ダイナミクスに影響を与える統合エコシステムが形成されます。
本文
目次
-
レポートのナビゲーション
1.1 PR(プルリクエスト)の中央値サイズが2025年3月から11月にかけて33 %増加し、57行から76行へと伸びました(Greptile社内部データエンジニアリングチームのベロシティで取得)。
1.2 開発者一人当たりのコード行数が4,450行から7,839行に増加し、AIコーディングツールが乗数効果をもたらしています(同上)。
1.3 中規模チーム(6〜15名)では開発者一人当たりの出力が7,005行から13,227行へと伸びました(同上)。
1.4 ファイルあたりの変更行数は20 %増加し、PRが密度化するにつれて中央値が18行から22行へと上昇しました(同上)。 -
市場シェアとダウンロード
2.1
が59 %で市場を支配しており、AIメモリインフラの明確なリーダーです。mem0
2.2 明確な勝者はいません:Weaviateが25 %でトップですが、残り6社は10〜25 %のシェアで並列しています(PyPI + npm の月間ダウンロード数、2025年11月)。
2.3
が67 %で採用率をリードし、多くのチームが複数フォーマットを併用しています。17 %のリポジトリはすべて三種類のフォーマットを使用しています。CLAUDE.md
2.4 Anthropic SDK は4300万件(8倍成長)でトップ、Pydantic AI は3.7倍拡大して600万件に到達しました(PyPI + npm の月間ダウンロード数、2025年4〜11月)。
2.5 LangSmith が1億1000万件で圧倒的な月間ダウンロード数を誇ります(PyPI + npm の月間ダウンロード数、2025年6〜11月)。LangSmith は LangChain のインストール時にバンドルされます。 -
LLMプロバイダーSDKのダウンロード
3.1 OpenAI が1億3000万件でトップ。Anthropic は2023年4月以降1,547倍増加、Google は1,360万件で後れを取っています(PyPI の月間ダウンロード数、2022年1月〜2025年11月)。
3.2 OpenAI対Anthropicの比率は、2024年1月の47:1から2025年11月には4.2:1に低下しました。ピーク時は47:1(2024年1月)、現在は4.2:1(PyPI の月間ダウンロード数比率、2023年7月〜2025年11月)。 -
テスト設定
- 各モデルは同一の6つのテストスイートを走らせ、パラメータも統一:
、temperature = 0.2
、top_p = 1.0
。max_tokens = 1024- 再試行可能エラー(429, 5xx)に対して指数バックオフを適用し、遅延は0.2 s、0.4 s、0.8 sです。
- すべてのモデルが同一プロトコル下で同じプロンプトセットを受け取ります。
- 01TTFT スイート – リクエストごとの最初のトークンまでの時間(TTFT)分布を測定し、p25 / p50 / p75 のパーセンタイルを報告します。測定前に3回のウォームアップリクエストがあります。
- 02Throughput スイート – 1秒あたりの総トークン数を測定し、テストラン全体でp25 / p50 / p75 のパーセンタイルを報告します。
- 各モデルは同一の6つのテストスイートを走らせ、パラメータも統一:
-
結果概要
モデル TTFT p25 TTFT p50 TTFT p75 Throughput p25 Throughput p50 Throughput p75 GPT‑5‑Codex (OpenAI) 3.7 s 5.0 s 6.6 s 53 tok/s 62 tok/s 73 tok/s GPT‑5.1 (OpenAI) 3.9 s 5.5 s 7.6 s 55 tok/s 62 tok/s 68 tok/s Sonnet 4.5 (Anthropic) 1.8 s 2.0 s 2.2 s 17 tok/s 19 tok/s 21 tok/s Opus 4.5 (Anthropic) 1.9 s 2.2 s 3.0 s 14 tok/s 18 tok/s 20 tok/s Gemini 3 Pro (Google) 11.8 s 13.1 s 14.5 s 4 tok/s 4 tok/s 5 tok/s - TTFT – Anthropic の Opus 4.5 と Sonnet 4.5 は p50 で2.5秒未満に最初のトークンを返し、残り3モデルはそれよりも2倍以上長くかかります。
- Throughput – GPT‑5 Codex と GPT‑5.1 が分布全体で最高の持続スループットを提供し、生成が完了するまでに時間が短縮されるため、より多くのコーディングエージェントやCIジョブを同時実行できます。Anthropic は中程度、Gemini 3 Pro は遅れています。
-
コスト乗数
- 公開リスト価格(2025年12月15日時点)を用いて、8k入力 / 1k出力ワークロードで計算し、GPT‑5 Codex を基準として 1× に正規化しました(キャッシュ/バッチ割引は除外)。
- 主なパターンは乗数であり、絶対価格ではありません。
-
基盤モデルの進展
-
DeepSeek‑V3 技術報告書 – 671 B パラメータを持つMixture‑of‑Experts モデルで、トークンごとに37 B パラメータのみをアクティブ化します。効率性重視の設計(Multi‑Head Latent Attention, Sparse MoE routing, Multi‑Token Prediction)を強調しています。
-
Qwen2.5‑Omni 技術報告書 – 感覚処理とシーケンスモデリングを分離したマルチモーダルモデルです。Time‑aligned Multimodal RoPE (TMRoPE)、Thinker–Talker アーキテクチャ、感覚・推論・生成の分離によりスケールしやすさとデバッグ容易性を実現しています。
-
-
長文コンテキスト vs RAG(Retrieval‑Augmented Generation)
- 12 の QA データセット(約19k質問)で体系的比較。
- 長文コンテキストモデルは継続的かつ構造化されたソースで優れ、RAG は断片化・多源・対話中心データで秀です。
-
RetroLM – KV レベルの検索を長文タスクに活用。KV キャッシュ自体を検索面として扱い、LongBench, InfiniteBench, RULER で最先端性能を達成しています。
-
Self‑Mixture‑of‑Agents (Self‑MoA) – モデル間多様性の代わりに単一強力モデルを繰り返しサンプリングし、アグリゲータ LLM によって応答を統合。提案者品質が高い場合、従来の MoA を上回ります。
-
アプリケーション層の革新
- GEPA – 実行トレースを用いて指示を最適化する反射型プロンプト進化で、RL 方式よりも少ないロールアウトで同等または上回る性能を実現。
- SFR‑DeepResearch – シングルエージェント強化学習で深層ウェブリサーチを行い、
を自律的に管理してコンテキストを維持。clean_memory
-
RAG と長文コンテキストの超えた技術
- LDAR (Learning Distraction‑Aware Retrieval) – 類似スコア分布で上下限を予測し、連続した「バンド」パッセージを選択。トークン使用量を削減しつつ性能を維持または向上。
- MEM1 – 以前のメモリをコンパクト内部状態トークン(
)に統合した常時メモリ長期エージェントで、マルチターンタスクで約3.7倍少ないメモリで同等または優れた結果を達成。<IS>
-
Search‑R1 – ステップバイステップ推論とライブ検索クエリを組み合わせるモデル訓練。構造化テンプレート(
、<think>
、<search>
、<information>
)を用い、マルチホップ QA データセットで RAG ベースラインに対し顕著な向上を示します。<answer>
この要約は不要な空白・記号・フォーマットの混乱を除去し、重要データやチャート、洞察を保持したクリーンかつインデントされた形で提供しています。