The State of AI Coding Report 2025

2025/12/18 1:45

The State of AI Coding Report 2025

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
AI 主導のコーディングツールは、開発者の生産性を著しく向上させ、インフラストラクチャーおよび SDK プロバイダー市場を再構築しています。プルリクエストは 33 % 増加し、1 人あたりのコード行数が 4,450 行から 7,839 行に増加しました。中規模チームは現在、1 チームあたり 13,000 行を超えるコードを書き、ファイルごとの中央値変更件数も 20 % 上昇しています。AI メモリインフラストラクチャーでは、mem0 が 59 % のシェアで圧倒的に優位であり、Weaviate は 25 % を占めています。その他の 6 社は合わせて残りの 10‑25 % を保持しています。SDK に関しては、Anthropic のダウンロード数が 8 倍増加し 4,300 万件(2023 年 4 月以降で 1,547 倍)に達しました。LangSmith は月間ダウンロード数 1億1,000 万件を記録し、OpenAI が 1億3,000 万件でリードしています。CLAUDE.md の採用率は 67 % に達し、Pydantic AI は 600 万件のダウンロード(成長率 3.7 倍)を達成しました。OpenAI と Anthropic のダウンロード比率の差は縮小しており、より多くの開発者が Anthropic の製品へ移行し、追加のメモリインフラストラクチャー提供者も注目される可能性があります。ユーザーと企業にとっては、これにより高速で高品質なコード生成が実現し、ベンダー選択や競争ダイナミクスに影響を与える統合エコシステムが形成されます。

本文

目次

  1. レポートのナビゲーション
    1.1 PR(プルリクエスト)の中央値サイズが2025年3月から11月にかけて33 %増加し、57行から76行へと伸びました(Greptile社内部データエンジニアリングチームのベロシティで取得)。
    1.2 開発者一人当たりのコード行数が4,450行から7,839行に増加し、AIコーディングツールが乗数効果をもたらしています(同上)。
    1.3 中規模チーム(6〜15名)では開発者一人当たりの出力が7,005行から13,227行へと伸びました(同上)。
    1.4 ファイルあたりの変更行数は20 %増加し、PRが密度化するにつれて中央値が18行から22行へと上昇しました(同上)。

  2. 市場シェアとダウンロード
    2.1

    mem0
    が59 %で市場を支配しており、AIメモリインフラの明確なリーダーです。
    2.2 明確な勝者はいません:Weaviateが25 %でトップですが、残り6社は10〜25 %のシェアで並列しています(PyPI + npm の月間ダウンロード数、2025年11月)。
    2.3
    CLAUDE.md
    が67 %で採用率をリードし、多くのチームが複数フォーマットを併用しています。17 %のリポジトリはすべて三種類のフォーマットを使用しています。
    2.4 Anthropic SDK は4300万件(8倍成長)でトップ、Pydantic AI は3.7倍拡大して600万件に到達しました(PyPI + npm の月間ダウンロード数、2025年4〜11月)。
    2.5 LangSmith が1億1000万件で圧倒的な月間ダウンロード数を誇ります(PyPI + npm の月間ダウンロード数、2025年6〜11月)。LangSmith は LangChain のインストール時にバンドルされます。

  3. LLMプロバイダーSDKのダウンロード
    3.1 OpenAI が1億3000万件でトップ。Anthropic は2023年4月以降1,547倍増加、Google は1,360万件で後れを取っています(PyPI の月間ダウンロード数、2022年1月〜2025年11月)。
    3.2 OpenAI対Anthropicの比率は、2024年1月の47:1から2025年11月には4.2:1に低下しました。ピーク時は47:1(2024年1月)、現在は4.2:1(PyPI の月間ダウンロード数比率、2023年7月〜2025年11月)。

  4. テスト設定

    • 各モデルは同一の6つのテストスイートを走らせ、パラメータも統一:
      • temperature = 0.2
        top_p = 1.0
        max_tokens = 1024
      • 再試行可能エラー(429, 5xx)に対して指数バックオフを適用し、遅延は0.2 s、0.4 s、0.8 sです。
    • すべてのモデルが同一プロトコル下で同じプロンプトセットを受け取ります。
    • 01TTFT スイート – リクエストごとの最初のトークンまでの時間(TTFT)分布を測定し、p25 / p50 / p75 のパーセンタイルを報告します。測定前に3回のウォームアップリクエストがあります。
    • 02Throughput スイート – 1秒あたりの総トークン数を測定し、テストラン全体でp25 / p50 / p75 のパーセンタイルを報告します。
  5. 結果概要

    モデルTTFT p25TTFT p50TTFT p75Throughput p25Throughput p50Throughput p75
    GPT‑5‑Codex (OpenAI)3.7 s5.0 s6.6 s53 tok/s62 tok/s73 tok/s
    GPT‑5.1 (OpenAI)3.9 s5.5 s7.6 s55 tok/s62 tok/s68 tok/s
    Sonnet 4.5 (Anthropic)1.8 s2.0 s2.2 s17 tok/s19 tok/s21 tok/s
    Opus 4.5 (Anthropic)1.9 s2.2 s3.0 s14 tok/s18 tok/s20 tok/s
    Gemini 3 Pro (Google)11.8 s13.1 s14.5 s4 tok/s4 tok/s5 tok/s
    • TTFT – Anthropic の Opus 4.5 と Sonnet 4.5 は p50 で2.5秒未満に最初のトークンを返し、残り3モデルはそれよりも2倍以上長くかかります。
    • Throughput – GPT‑5 Codex と GPT‑5.1 が分布全体で最高の持続スループットを提供し、生成が完了するまでに時間が短縮されるため、より多くのコーディングエージェントやCIジョブを同時実行できます。Anthropic は中程度、Gemini 3 Pro は遅れています。
  6. コスト乗数

    • 公開リスト価格(2025年12月15日時点)を用いて、8k入力 / 1k出力ワークロードで計算し、GPT‑5 Codex を基準として 1× に正規化しました(キャッシュ/バッチ割引は除外)。
    • 主なパターンは乗数であり、絶対価格ではありません。
  7. 基盤モデルの進展

    • DeepSeek‑V3 技術報告書 – 671 B パラメータを持つMixture‑of‑Experts モデルで、トークンごとに37 B パラメータのみをアクティブ化します。効率性重視の設計(Multi‑Head Latent Attention, Sparse MoE routing, Multi‑Token Prediction)を強調しています。

    • Qwen2.5‑Omni 技術報告書 – 感覚処理とシーケンスモデリングを分離したマルチモーダルモデルです。Time‑aligned Multimodal RoPE (TMRoPE)、Thinker–Talker アーキテクチャ、感覚・推論・生成の分離によりスケールしやすさとデバッグ容易性を実現しています。

  8. 長文コンテキスト vs RAG(Retrieval‑Augmented Generation)

    • 12 の QA データセット(約19k質問)で体系的比較。
    • 長文コンテキストモデルは継続的かつ構造化されたソースで優れ、RAG は断片化・多源・対話中心データで秀です。
  9. RetroLM – KV レベルの検索を長文タスクに活用。KV キャッシュ自体を検索面として扱い、LongBench, InfiniteBench, RULER で最先端性能を達成しています。

  10. Self‑Mixture‑of‑Agents (Self‑MoA) – モデル間多様性の代わりに単一強力モデルを繰り返しサンプリングし、アグリゲータ LLM によって応答を統合。提案者品質が高い場合、従来の MoA を上回ります。

  11. アプリケーション層の革新

    • GEPA – 実行トレースを用いて指示を最適化する反射型プロンプト進化で、RL 方式よりも少ないロールアウトで同等または上回る性能を実現。
    • SFR‑DeepResearch – シングルエージェント強化学習で深層ウェブリサーチを行い、
      clean_memory
      を自律的に管理してコンテキストを維持。
  12. RAG と長文コンテキストの超えた技術

    • LDAR (Learning Distraction‑Aware Retrieval) – 類似スコア分布で上下限を予測し、連続した「バンド」パッセージを選択。トークン使用量を削減しつつ性能を維持または向上。
    • MEM1 – 以前のメモリをコンパクト内部状態トークン(
      <IS>
      )に統合した常時メモリ長期エージェントで、マルチターンタスクで約3.7倍少ないメモリで同等または優れた結果を達成。
  13. Search‑R1 – ステップバイステップ推論とライブ検索クエリを組み合わせるモデル訓練。構造化テンプレート(

    <think>
    <search>
    <information>
    <answer>
    )を用い、マルチホップ QA データセットで RAG ベースラインに対し顕著な向上を示します。


この要約は不要な空白・記号・フォーマットの混乱を除去し、重要データやチャート、洞察を保持したクリーンかつインデントされた形で提供しています。

同じ日のほかのニュース

一覧に戻る →

2025/12/18 1:42

Gemini 3 Flash: Frontier intelligence built for speed

## Japanese Translation: > **概要:** > Google は、低コストで高速な AI モデル Gemini 3 Flash をリリースしました。これは Flash レベルのレイテンシーでプロ級の推論性能を提供します。Gemini アプリと Search の AI Mode では既にデフォルトエンジンとなり、Gemini 2.5 Flash は世界中で追加料金なしで即座に置き換えられます(Gemini 3 Pro が公開された直後)。ベンチマーク結果では、GPQA Diamond で 90.4 %、Humanity’s Last Exam(ツール無し)で 33.7 %、MMMU Pro で 81.2 %、SWE‑bench Verified で 78 % を獲得し、より大きなフロンティアモデルを上回ります。Gemini 3 Flash は Gemini 2.5 Pro より約30 %少ないトークン数で同等以上の性能を発揮します。価格は入力トークンあたり 0.50 USD、出力トークンあたり 3 USD(音声入力は 1 USD/百万トークン)です。JetBrains、Bridgewater Associates、Figma など多くの企業がこのモデルを活用し、コーディング、データ分析、設計ワークフローの高速化に役立てています。開発者は Gemini API(Google AI Studio)、Antigravity、Gemini CLI、Android Studio、Vertex AI、および Gemini Enterprise を通じて Gemini 3 Flash にアクセスできます。このモデルは Gemini アプリと Search 経由で全ユーザーへ展開されるほか、プレビュー API でも利用可能です。

2025/12/18 6:13

I got hacked: My Hetzner server started mining Monero

## Japanese Translation: ヘツナー VPS 上で Coolify をホストし、Next.js ベースの Umami アナリティクスを含む複数コンテナを実行していた。12 月 7 日に、Umami コンテナ内に Monero マイニングボット(`javae`/`xmrig`)が出現し、CPU スパイクが約 15 倍に増大した。著者はマイナーをコンテナに追跡し、CVE‑2025‑66478 ― Next.js の React Server Components “Flight” プロトコルにおける不安全なデシリアライゼーション(Puppeteer を介さずリモートコード実行が可能)を特定した。HTTP リクエストを巧妙に作成することで RCE が発動し、マイナーがインストールされた。ホストファイルシステムのチェック(`/tmp/.XIN-unix/javae`)ではエスケープは確認できず、コンテナは非 root の `nextjs` ユーザーとして実行され、特権モードやボリュームマウントも無いため、すべての悪意あるプロセスは名前空間内に留まった。 著者は侵害されたコンテナを停止・削除し、CPU 負荷を通常状態へ戻した。UFW をデフォルトで受信トラフィックを拒否するよう設定し、SSH、HTTP、および HTTPS のみ許可することで、オープンな PostgreSQL / RabbitMQ ポートを効果的に遮断した。ヘツナーは 2025‑12‑17 にネットワークスキャン検知後、アブズケース警告を送付し、著者が侵害と対策を説明するとともにチケットはクローズされた。 重要な教訓として、十分に隔離されているコンテナでも基盤フレームワークに脆弱性がある場合は突破可能であり、「Next.js を使っていない」状態が第三者ツールの依存関係によって偽りになるケースがあることを指摘した。この事例は、ファイアウォールルール、非 root ユーザー設定、特権モード無し、監視・ fail2ban の導入、およびタイムリーなパッチ適用という防御層の重要性を強調した。 ## 行動計画 - Umami を廃止する - すべてのコンテナに対してユーザー権限とマウントを監査する - SSH アクセスを強化し、アラートを設定する - セキュリティパッチを定期的に適用し、将来のインシデントを防止する ---

2025/12/18 3:15

How SQLite is tested

## Japanese Translation: > **SQLiteのテストインフラは網羅的で、コードベース全体にわたって完全な分岐カバレッジを実現しています。** > プロジェクトには約155.8 KSLOCのCソースがありますが、テストコードは92 M KSLOC以上――約590倍の量――で、すべての行が実行されることを保証しています。4つの独立したハーネスがカバレッジを提供します: > • **TCL**(27.2 KSLOC、1,390個のスクリプトファイル)で51,445件の異なるケースと数百万回の実行があります; > • **TH3**(1,055.4 KSLOC、約76.9 MBのバイナリ)で50,362件の異なるケース、完全カバレッジに必要な2.4 Mインスタンス、および約248.5 Mテストを実行するソークテストがあります; > • **SQL Logic Test (SLT)** はSQLiteとPostgreSQL、MySQL、MS SQL Server、Oracle 10gを比較し、7.2 Mクエリと1.12 GBのデータで検証します; > • **dbsqlfuzz**(libFuzzerベース)はSQLとデータベースファイルの両方を変異させ、約336個のシードファイルから16コアで1日あたり約500 Mテストを提供します。 > 追加の軽量ハーネスには `speedtest1.c`、`mptester.c`、`threadtest3.c`、`fuzzershell.c`、およびJSONBファズラ `jfuzz` が含まれます。 > 異常テストではメモリ不足、I/O障害、クラッシュ/電源損失、およびカスタムmalloc/VFSフックを使用した複合故障をシミュレートし、各障害後に整合性チェックが実行されます。 > ファズリングの歴史はAFL(2014‑2019)からOSS Fuzz(2016年以降)、その後dbsqlfuzz(2018年末)とjfuzz(2024年1月)へ進化しました。`fuzzcheck` スクリプトは毎回ビルド時に興味深いケースを再実行し、新しいバグが自動的にリグレッションテストとして生成されることを保証します。 > リソースリーク検出はTCL/TH3ハーネスに組み込まれており、メモリリーク、ファイルディスクリプタ枯渇、および不要なスレッドが自動的に監視されます。 > カバレッジは `gcov` を使用して100 %の分岐カバレッジと変異テストで達成され、マクロ(`ALWAYS`、`NEVER`、`testcase`)がMC/DCを強制し、コメント(`/*OPTIMIZATION‑IF‑TRUE/FALSE*/`)は偽陽性を防ぎます。 > 結果として、継続的に拡張される高い信頼性のテストスイートが実現し、ユーザーにSQLiteの安定性への確信を提供し、セキュリティ脆弱性から保護し、オープンソースデータベース品質保証のベンチマークとなります。

The State of AI Coding Report 2025 | そっか~ニュース