LLM のマージレートは、思ったほど向上していないのでしょうか？

Japanese Translation:

記事は、LLM（大規模言語モデル）のプログラミング能力が過去1年間で進歩していないと主張し、その根拠としてマージ率の証拠を挙げています。metr の研究では、2 つの成功基準「すべてのテストに合格する」と「メンテナに承認される」を比較しています。より厳しい基準にするとパフォーマンスが低下し、50 % 成功までの時間が 50 分からわずか 8 分に縮小します。Fisher はプロットを単純に目視で判断することに警告しており、著者は留一除外交差検証（leave‑one‑out cross‑validation）を適用し、3 つのモデルを評価しました：穏やかな上向き傾斜（Brier = 0.0129）、分段定数モデル（Brier = 0.0117）、および定数関数（Brier = 0.0100）。定数モデルがデータに最も適合し、線形とロジスティックの傾向を上回ります—特にプロットの後半では 2 つの定率モデルが支配しています。マージ率プロットの視覚的検査は、2025 年初頭以降改善がないことを確認し、Sonnet 4.5 後に測定されたマージ率データが欠如していたという以前の能力ステップの主張と矛盾します。したがって、現在のところ最近の能力跳躍の証拠はなく、将来の研究では進歩を主張する前に具体的なマージ率メトリクスを提供する必要があります。LLM のパフォーマンスが停滞している場合、自動コード生成に依存する開発者や組織は、明確な改善が示されるまで注意を払うべきです。

Text to translate

(incorporating missing details for completeness):**

The article argues that LLM programming abilities have not advanced over the past year, citing merge‑rate evidence. A study by metr compared two success criteria: “passes all tests” versus “would get approved by the maintainer.” The stricter criterion drops performance, shrinking the 50 % success horizon from 50 minutes to just 8 minutes. Fisher warns against simply eyeballing plots; the author therefore applies leave‑one‑out cross‑validation to evaluate three models: a gentle upward slope (Brier = 0.0129), a piecewise constant model (Brier = 0.0117), and a constant function (Brier = 0.0100). The constant model best fits the data, outperforming both linear and logistic trends—especially in the plot’s latter half where two constant‑rate models dominate. Visual inspection of merge‑rate plots confirms no improvement since early 2025, contradicting earlier claims of a capability step post‑Sonnet 4.5 that lacked measured merge‑rate data. Consequently, there is currently no evidence of a recent capability leap; future studies must provide concrete merge‑rate metrics before claiming progress. If LLM performance remains stagnant, developers and organizations relying on automated code generation should exercise caution until clear improvements are demonstrated.

メトル（metr）記事の読解と統計的検証について

1. 背景

私は metr が公開した「LLM がテストに合格する頻度は高いものの、実際にマージできる品質とは乖離している」という議論を読みました。
この研究では、成功基準を「すべてのテストに合格」か「メンテナーに承認される」に分けて LLM のプログラミング性能を評価しています。結果は予想どおりで、より厳しい成功基準の方が性能が著しく低くなります。
50 % 成功到達時間（success horizon）は 50 分から 8 分へと短縮されます。

2. 図の概要

論文では下記のような図を掲載しています。（図は省略）

(Figure omitted)

ここで特に注目したいのが マージ率（merge rates） のデータです。
再度図を見てみると、

(Figure omitted)

という形になります。

3. 観察すべき点

メトルは「軽く上向きになる」線でこのデータを表現したいようですが、私の印象は異なります。

(Figure omitted)

2024 年末に能力がステップアップした可能性があると推測されますが、このプロットでは 2025 年初以降のマージ率に実際の改善が見られないようです。

4. 定量的検証

Fisher は「目視で結論を出すこと」を警告しているので、ここでは leave‑one‑out クロスバリデーション を用いて、メトルが提案した線形傾向とプロットが示唆するステップ関数（piecewise constant）を比較します。

モデル	Brier スコア
軽い上昇傾向 (linear)	0.0129
ステップ関数 (piecewise constant)	0.0117

Brier スコアは二乗誤差の一種で、小さいほど良いという性質があります。
従ってステップ関数が線形よりも予測力（フィット）に優れていると言えます。

さらに「全期間を通して完全に一定」のモデルも試したところ、最も良い Brier スコア（0.0100）を獲得しました。

モデル	Brier スコア
軽い上昇傾向 (linear)	0.0129
ステップ関数 (piecewise constant)	0.0117
完全一定 (constant)	0.0100

5. 結論

後半のマージ率を「一定」と仮定したモデル（ステップ関数・完全一定）が、線形成長トレンドよりも精度が高い。
ロジスティック回帰（log‑odds に対する線形）は、この確率範囲ではほぼ線形になるため、上記の結論と矛盾しません。

したがって、LLM のプログラミング能力は過去 1 年以上で改善していないという事実に到達します。
これは非常に衝撃的です。なぜこれほどまでに注目されていないのでしょうか？

6. 補足（Postscriptum）

メトルプロットの終了から今日までの 4 ヶ月間で、Anthropic や Google の新しいモデルによる「もう一つのステップアップ」があったという主張を耳にしています。しかし、Sonnet 4.5 以降のモデルについては、メトルが行ったような細かいマージ率測定が不足しているため、明確な証拠はありません。

2025 年も同様に「ステップアップ」を主張する声がありましたが、実際にはその主張は誤りでした。
したがって、バズと実際の性能との差は 2025 年にも大きかったようです。
今後もこのギャップが続くかどうかは不明ですが、これこそが興味深い点だと感じています。

LLM のマージレートは、思ったほど向上していないのでしょうか？

Japanese Translation:

Text to translate

1. 背景

2. 図の概要

3. 観察すべき点

4. 定量的検証

5. 結論

6. 補足（Postscriptum）

同じ日のほかのニュース