LLM のマージレートは、思ったほど向上していないのでしょうか?

2026/03/12 20:49

LLM のマージレートは、思ったほど向上していないのでしょうか?

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

記事は、LLM(大規模言語モデル)のプログラミング能力が過去1年間で進歩していないと主張し、その根拠としてマージ率の証拠を挙げています。metr の研究では、2 つの成功基準「すべてのテストに合格する」と「メンテナに承認される」を比較しています。より厳しい基準にするとパフォーマンスが低下し、50 % 成功までの時間が 50 分からわずか 8 分に縮小します。Fisher はプロットを単純に目視で判断することに警告しており、著者は留一除外交差検証(leave‑one‑out cross‑validation)を適用し、3 つのモデルを評価しました:穏やかな上向き傾斜(Brier = 0.0129)、分段定数モデル(Brier = 0.0117)、および定数関数(Brier = 0.0100)。定数モデルがデータに最も適合し、線形とロジスティックの傾向を上回ります—特にプロットの後半では 2 つの定率モデルが支配しています。マージ率プロットの視覚的検査は、2025 年初頭以降改善がないことを確認し、Sonnet 4.5 後に測定されたマージ率データが欠如していたという以前の能力ステップの主張と矛盾します。したがって、現在のところ最近の能力跳躍の証拠はなく、将来の研究では進歩を主張する前に具体的なマージ率メトリクスを提供する必要があります。LLM のパフォーマンスが停滞している場合、自動コード生成に依存する開発者や組織は、明確な改善が示されるまで注意を払うべきです。

Text to translate

(incorporating missing details for completeness):**

The article argues that LLM programming abilities have not advanced over the past year, citing merge‑rate evidence. A study by metr compared two success criteria: “passes all tests” versus “would get approved by the maintainer.” The stricter criterion drops performance, shrinking the 50 % success horizon from 50 minutes to just 8 minutes. Fisher warns against simply eyeballing plots; the author therefore applies leave‑one‑out cross‑validation to evaluate three models: a gentle upward slope (Brier = 0.0129), a piecewise constant model (Brier = 0.0117), and a constant function (Brier = 0.0100). The constant model best fits the data, outperforming both linear and logistic trends—especially in the plot’s latter half where two constant‑rate models dominate. Visual inspection of merge‑rate plots confirms no improvement since early 2025, contradicting earlier claims of a capability step post‑Sonnet 4.5 that lacked measured merge‑rate data. Consequently, there is currently no evidence of a recent capability leap; future studies must provide concrete merge‑rate metrics before claiming progress. If LLM performance remains stagnant, developers and organizations relying on automated code generation should exercise caution until clear improvements are demonstrated.

本文

メトル(metr)記事の読解と統計的検証について


1. 背景

私は metr が公開した「LLM がテストに合格する頻度は高いものの、実際にマージできる品質とは乖離している」という議論を読みました。
この研究では、成功基準を「すべてのテストに合格」か「メンテナーに承認される」に分けて LLM のプログラミング性能を評価しています。結果は予想どおりで、より厳しい成功基準の方が性能が著しく低くなります。
50 % 成功到達時間(success horizon)は 50 分から 8 分へと短縮されます。


2. 図の概要

論文では下記のような図を掲載しています。(図は省略)

(Figure omitted)

ここで特に注目したいのが マージ率(merge rates) のデータです。
再度図を見てみると、

(Figure omitted)

という形になります。


3. 観察すべき点

メトルは「軽く上向きになる」線でこのデータを表現したいようですが、私の印象は異なります。

(Figure omitted)

2024 年末に能力がステップアップした可能性があると推測されますが、このプロットでは 2025 年初以降のマージ率に実際の改善が見られないようです。


4. 定量的検証

Fisher は「目視で結論を出すこと」を警告しているので、ここでは leave‑one‑out クロスバリデーション を用いて、メトルが提案した線形傾向とプロットが示唆するステップ関数(piecewise constant)を比較します。

モデルBrier スコア
軽い上昇傾向 (linear)0.0129
ステップ関数 (piecewise constant)0.0117

Brier スコアは二乗誤差の一種で、小さいほど良いという性質があります。
従ってステップ関数が線形よりも予測力(フィット)に優れていると言えます。

さらに「全期間を通して完全に一定」のモデルも試したところ、最も良い Brier スコア(0.0100)を獲得しました。

モデルBrier スコア
軽い上昇傾向 (linear)0.0129
ステップ関数 (piecewise constant)0.0117
完全一定 (constant)0.0100

5. 結論

  • 後半のマージ率を「一定」と仮定したモデル(ステップ関数・完全一定)が、線形成長トレンドよりも精度が高い。
  • ロジスティック回帰(log‑odds に対する線形)は、この確率範囲ではほぼ線形になるため、上記の結論と矛盾しません。

したがって、LLM のプログラミング能力は過去 1 年以上で改善していないという事実に到達します。
これは非常に衝撃的です。なぜこれほどまでに注目されていないのでしょうか?


6. 補足(Postscriptum)

メトルプロットの終了から今日までの 4 ヶ月間で、Anthropic や Google の新しいモデルによる「もう一つのステップアップ」があったという主張を耳にしています。しかし、Sonnet 4.5 以降のモデルについては、メトルが行ったような細かいマージ率測定が不足しているため、明確な証拠はありません。

  • 2025 年も同様に「ステップアップ」を主張する声がありましたが、実際にはその主張は誤りでした。
  • したがって、バズと実際の性能との差は 2025 年にも大きかったようです。
    今後もこのギャップが続くかどうかは不明ですが、これこそが興味深い点だと感じています。

同じ日のほかのニュース

一覧に戻る →

2026/03/13 6:01

「実装したほうがよろしいでしょうか? いいえ。」

## Japanese Translation: **オリジナルの要約は既に明確で正確、簡潔です。修正は不要です。**

2026/03/12 22:42

マルス – サービステクノロジー型クリーンルーム (“Malus – Clean Room as a Service” を自然な日本語に訳したものです。)

## Japanese Translation: ## 要約 このテキストは、企業がオープンソースライブラリを「ロボット再構築版」に合法的に置き換え、帰属表示とコピーレフトの義務を排除できる商業サービスを推進しています。公的なドキュメントと型定義のみを使用してクリーンルーム環境でコードを書き直すことで、同社は各新しいコピーが自動化されたチームによって独立して作成され、元のソースから直接コピーされていないことを保証すると主張しています。サービスは、パッケージの解凍サイズに基づく透明なKB単位課金を提供し、基本料金やサブスクリプションはなく、Stripe処理最低限度が設定されています。支払いはUSD、EUR、BTC、または株式オプションで可能です。npm、PyPI、Cargo、Maven、Go、NuGet、RubyGems、Composer など複数のエコシステムをサポートしていますが、ダッシュボードには現在処理済みプロジェクトもアクティブ顧客もゼロと表示されています。 匿名企業クライアントからのケーススタディでは、AGPL の依存関係削除、$4 M のコンプライアンスコスト節約(サービス料 $50 K と比較)、そして $2.3 B の買収を促進した事例が挙げられています。同社の「MalusCorp Guarantee™」は、リベレートされたコードが元のライセンスに違反した場合、全額返金または国際水域への移転を保証します—これまで一度も発動されたことがありません。 将来的な計画としては、緊急 AGPL 問題に対するラッシュ価格設定、追加パッケージエコシステムへの拡大、および帰属表示要件を排除する独自の MalusCorp‑0 ライセンスの継続的な推進が含まれます。広く採用されれば、企業は制限的なオープンソースライセンスを回避でき、法的リスクとコストを低減し、依存関係管理に関する業界規範を変える可能性があります。

2026/03/13 2:13

**バブルソートされたアメンブレイク**

## Japanese Translation: > **概要:** > 「このアイデアで起きた、今や存在する。かっこいい!」というタイトルの新しいインディーゲームプロトタイプが、itch.ioで*自分で価格を決めてください*タグ付きでリリースされました。Godotエンジンで構築され、HTML5とWindowsで動作し、「AmenSorting (Windows)」(~93 MB) などのダウンロード可能ファイルが含まれています。現在、このゲームは3人のレビューアから5つ星評価を受けています。Music、Music Production、および No AI のタグが付いており、人工知能よりも音声ソートに焦点を当てた内容であることを示しています。ユーザーはログイン後にコメントを残すことができ、一部の人々は並べ替えられたサンプルを再生する機能やソースコードの有無について尋ねています。この無料リリースは音楽制作の趣味家を惹きつける可能性があり、関心が高まればさらなる開発につながるかもしれません。

LLM のマージレートは、思ったほど向上していないのでしょうか? | そっか~ニュース