多くのSWE bench‑passing PR はマージされることがないでしょう。

2026/03/12 5:56

多くのSWE bench‑passing PR はマージされることがないでしょう。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
本研究では、2024年中頃から2025年末までに提出された296件のAI生成プルリクエスト(PR)を、scikit‑learn、Sphinx、および pytest の3つの主要なソフトウェア工学ベンチマークリポジトリで、4名の活発なメンテナーから検証しました。これらの PR の約半分は、メンテナーの判断にノイズを加えてもメインブランチへマージされませんでした。平均して、自動評価者(グレーダー)の合格率はメンテナーのマージ率より 24.2 パーセントポイント高く、統計的に有意であることが示されました。メンテナーの年次改善率はグレーダーのそれを約 9.6 pp/yr 遅れ、弱いながらも統計的に有意な結果でした。
メンテナーは主にコード品質(スタイル不備やリポジトリ標準への非準拠)を理由に PR を拒否しました。他の失敗要因としては既存コードの破損、コア機能の喪失、および自動グレーダーの失格が挙げられます。Claude 3.5 Sonnet から Claude 3.7 Sonnet へのモデルアップグレードにより合格率は上昇しましたが、同時にコア機能拒否も増加し、後続のアップグレードでは主にコード品質の改善が見られました。GPT‑5 は Anthropic モデルと比べてコード品質で顕著に劣り、マージ率を低下させました。
ヒューマン「ゴールデン」パッチは 68 % のメンテナー マージ率と約 90 % のマージ可能性向上率を示し、このベースラインがモデルスコアの正規化に使用されました。PR を再評価して ≥80 % のマージ可能性進捗に達した場合、結果は合格率分析と同様であり、AI パッチの約 50 % が閾値を満たし、ゴールデンパッチでは約 100 % に相当しました。時間軸解析では、自動グレーダーがメンテナー評価に対してモデル能力を約7倍過大評価していることが明らかになりました。
制限点としては、リポジトリカバレッジの限定(検証済みリポジトリ 3/12)、レビュー時の継続的インテグレーションの欠如、および静的評価に留まるパッチ評価が挙げられます。著者は、ベンチマークスコアからの単純な外挿は誤解を招くと結論付けており、メンテナーによるレビューこそがエージェント有用性をより現実的に測定する手段であると示しています。

本文

要約

2024年中頃から2025年末にかけて、エージェントが生成したSWE‑benchのVerified PRのうち、およそ半分はリポジトリ保守者によってメインブランチへマージされませんでした。
これは、エージェントが人間と同じようにフィードバックを受けて解決策を繰り返し改善できないためではなく、ベンチマークスコアを単純に解釈すると、実際の世界での有用性を過大評価してしまうことを示しています。


はじめに

ベンチマークスコアは実務上の価値へ直結しづらいものです。
例: SWE‑bench の Verified スコアが 60 % であれば「モデルは実世界の問題を 60 % 修正できる」と解釈されがちですが、ベンチマークは洗練された検証環境である一方、現実世界はそうではありません。

これを定量的に調査するために:

  1. SWE‑bench の Verified ベンチマークを使用
  2. 自動採点器と実際の保守者レビューを比較

研究設計

項目内容
保守者3 リポジトリ(scikit‑learn、Sphinx、pytest)から選ばれた 4 名のアクティブな保守者
レビュー対象パッチ自動採点器を通過した AI 生成 PR が 296 件
ゴールデンベースラインマージされた人間作成 PR が 47 件。これを用いて保守者判断のノイズを推定
指標合格率(受理されたパッチの割合)をゴールデンベースライン(68 % のマージ率)で正規化

前提条件

  1. 自動採点器に落ちたパッチは保守者レビューでも必ず落とす(偽陰性なし)
  2. 保守者は PR の出所を知らされず、波状でレビューする

主な結果

指標自動採点器保守者マージ差分
平均合格率保守者より 24pp 高い(統計的に有意)
改善速度 (pp/yr)保守者は 9.6 pp/yr 遅れ、10 % の有意差

図 1 はこれらのギャップと傾向線を示しています。


拒否理由

失敗は以下に分類:

  1. コード品質
  2. その他(未文書化)
  3. 他コードへの破壊的影響
  4. コア機能不備
  5. 自動採点器失敗

図 3 は、自動採点器が合格しても、保守者はコア機能やコード品質の問題で拒否するケースが多いことを示しています。


強度チェック

チェック結果
条件付き保守者マージ率(自動採点器通過パッチのみ)AI 生成パッチはゴールデン人間パッチよりも依然としてマージ頻度が低い
サンプル代表性サブセットは全 SWE‑bench データセットとほぼ一致
偽陰性補正3.7 % の偽陰性率を調整しても結論は変わらない
生(非正規化)合格率保守者マージ率は自動採点器の約 1/3〜1/2。改善ギャップは約 15.5 pp/yr
SOTA モデルのみ傾向差が縮小し、統計的に有意ではなくなる

リポジトリ別結果

3 つのリポジトリ全体で、自動採点器と保守者合格率のギャップは持続。Sphinx と pytest は有意だが、scikit‑learn はノイズが大きい。


時間軸分析

パス率をタスク時間(対数)に対してロジスティック回帰:

モデル自動採点器 (min)保守者マージ (min)
Claude 3.5 Sonnet (旧版)42
Claude 3.7 Sonnet316
Claude Opus 4354
GPT‑5392
Claude 4.5 Sonnet508

Claude 4.5 Sonnet の場合、自動採点器は時間軸を約 7 倍に過大評価しています。
図 10–11 はこれらの推定値を示し、図 12 はリリース日と対比しますが、トレンドは極めてノイズが多く頑健ではありません。


技術的制限

  • ベンチマークとエージェントハーネスのサブセットに限定
  • 保守者レビューは CI を持たず、過去のリポジトリ状態を用いる
  • 静的パッチ比較では動的な生成・レビュー・反復サイクルが無視される
  • エージェントがより多くコードを生成するにつれ、基準も変わり得る

考察

本研究はベンチマークから実世界での有用性への単純な外挿を警告します。自動採点器と保守者判断との不一致は、特にコード品質やリポジトリ基準への適合が必要なタスクでは、ベンチマーク性能が実際の影響力を過大評価する可能性を示唆しています。

同様の教訓は他のベンチマーク(例:GDPval‑AA、UpBench)にも当てはまると考えられます。

同じ日のほかのニュース

一覧に戻る →

2026/03/12 0:35

**Temporal:JavaScript で時間を直すための9 年間の旅**

## Japanese Translation: > Bloomberg の JavaScript インフラストラクチャチームは、Chromium(ブラウザ用)、Node.js(サーバー用)、SpiderMonkey(埋め込み用途)という統一されたランタイムスタックを提供し、そのエンジニアリングワークフォースを支援しています。 > このチームは TC39 を通じて Temporal の提案を推進する上で重要な役割を果たしており、Igalia と緊密に協力し代表者として活動しています。Promise.allSettled、Arrow Functions、BigInt、Class Fields などへの貢献で知られる Jason Williams がこの取り組みを主導しました。 > Temporal は JavaScript の可変 Date オブジェクトを不可変型(PlainDate、PlainTime、ZonedDateTime、Instant)に置き換え、明示的なタイムゾーンとカレンダーのサポート、およびナノ秒精度を提供します。2024 年 6 月に Stage 4 に達し、現在は ES2026 スペックの一部となっています。 > Bloomberg の金融ユースケースでは、設定可能なタイムゾーン、最新の IANA tzdata、そして高精度のタイムスタンプが必要であり、これが Temporal の開発を推進しました。この提案は Google Internationalization チーム、Boa、Kevin Ness、Manish Goregaokar、Jose Espina によって構築された Rust ライブラリ *temporal_rs* を通じて協力的に実装され、現在約 4,500 件の Test262 テストに合格しています。 > ブラウザサポートのマイルストーンは次のとおりです:Firefox v139(2025 年 5 月)、Chrome v144 & Edge v144(2026 年 1 月);Node.js v26 および TypeScript 6.0 Beta(2026 年 2 月)も近々期待されています。Safari は部分的なプレビューを提供しています。 > 主な実装上の課題には、提案サイズ(ECMA‑402 より大きい)、仕様の揺らぎ、パフォーマンス要求、および大規模テストスイートの必要性が含まれます。 > 今後の作業は Temporal を既存の Web API(デートピッカー、DOMHighResTimeStamp、クッキー有効期限など)と統合し、従来の Date ベースのライブラリとの後方互換性を確保することに焦点を当てています。 > Microsoft、Google、Mozilla、Bloomberg、Igalia、Boa、および独立した貢献者間の協力は、重複を減らし JavaScript エコシステム全体でイノベーションを加速させる共有インフラストラクチャモデルを示しています。 この改訂された概要はすべての主要ポイントを保持し、不当な推論を排除し、明確で曖昧さのない物語を提示します。

2026/03/12 4:29

生成・AI で編集されたコメントを投稿しないでください。HN は人と人との対話の場です。

## 日本語訳: (すべての重要ポイントを含む)** このポリシーは明確な使命を示しています。ハッキング、スタートアップ、および関連技術テーマに関する好奇心駆動型ディスカッションを開催し、政治・犯罪・スポーツ・有名人ゴシップ(新たな現象が明らかでない限り)は厳格に除外します。 この焦点を維持するため、ガイドラインはオントピックとオフトピックのコンテンツを区別し、投稿にはオリジナルソースの使用(再投稿時は引用)を求め、タイトルで宣伝的言語を禁止します。タイトルは大文字・感嘆符・過剰な数字や形容詞を避け、サイト名を含まないようにし、代わりに強調のためにアスタリスクを使用できます。動画またはPDF投稿の場合、タイトルに「[video]」または「[pdf]」を付加します。 コメントは思慮深く実質的であることが期待されます。皮肉・浅い軽蔑・炎上誘発・政治/イデオロギー戦争は排除し、人物ではなく議論に対処すべきです。AI生成または編集されたコメントは禁止されており、全てのディスカッションは人間同士で行われることを意図しています。アップボートやコメントの要請は禁じられており、投票とコメントは真剣な関心から生まれるべきです。 モデレーションは過度に差し控えめな発言をフラグ付けすることに重点を置き、形式ルールを強化し、イデオロギー対立を会話から排除します。その結果、誤情報・センセーション主義・宣伝活動を抑制しつつ、集中した技術的探求を奨励するプラットフォームが実現されます。

2026/03/11 13:44

ウェブ上でWebAssemblyを第一級言語にする

## Japanese Translation: (欠落しているポイントを組み込む):** ## 要約 WebAssembly(Wasm)は2017年のデビュー以来、共有メモリ、SIMD、例外処理、テールコール、64ビットメモリ、ガベージコレクション、大量メモリ命令、複数戻り値、および参照値などの機能を追加しながら進化してきました。これらの技術的進歩にもかかわらず、Wasmは「二次的」なウェブ言語として位置づけられ続けています。というのも、すべてのモジュールが依然としてJavaScriptを介してロードされ、ブラウザAPIにバインドされる必要があるからです。 主な障壁は2つあります: 1. **面倒なロード** – JavaScript が `WebAssembly.instantiateStreaming` を使って手動でモジュールをフェッチし、インスタンス化する必要があります。 2. **APIアクセスにはグルーコードが必要** – WasmメモリとJSオブジェクト間の変換は言語固有であり、ビルドの複雑さを増加させ、実行時にオーバーヘッド(例:TodoMVCベンチマークで45%の遅延)が発生します。 `esm-integration` の提案では、`.wasm` モジュールを `<script type="module" src="/module.wasm">` で直接インポートできるようにし、ロードを簡素化しますが、グルーコード問題は解決されません。Clang/LLVMなどのコンパイラは依然としてベアWasmを出力し、開発者は JavaScript を埋め込む非公式ツールチェーンに頼ることが多いです。 **WebAssembly コンポーネントモデル** は解決策を提示します:コンポーネントは高レベルのIDL(WIT)と低レベルのWasmコードをバンドルし、ブラウザや他言語がインターフェースを直接インポートできるようにします。例えば、Rust コンポーネントは WIT を介して `import std:web/console` し、`console::log` を呼び出すことができます。そのコンパイル済みコンポーネントは `<script type="module" src="component.wasm">` でブラウザにロードされます。JavaScript はエクスポートされたインターフェース(例:画像デコーダ)をネイティブモジュールとして消費できます(`import { Image } from "image-lib.wasm"`)。 Mozilla と Google がこのモデルの構築に協力しており、Jco や Wasmtime などのツールはすでに開発者が実験できるようになっています。プラットフォーム統合のための JavaScript 依存を排除することで、コンポーネントモデルはビルドの複雑さ低減、パフォーマンス向上、および言語間相互運用性の拡大を約束し、WebAssembly のウェブエコシステム全体での採用を加速させる可能性があります。

多くのSWE bench‑passing PR はマージされることがないでしょう。 | そっか~ニュース