SWE-bench Verified はもはや最先端レベルの実装能力の評価指標として機能しなくなりました。

2026/04/26 22:58

SWE-bench Verified はもはや最先端レベルの実装能力の評価指標として機能しなくなりました。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

改訂版サマリー:SWE-bench Verified は、データの汚染が深刻でテスト設計に不備があるため、自律型ソフトウェア工学の進捗を測る信頼できる指標としての地位を失いました。監査の結果、問題の約 60% が破損したテストか不明瞭な説明を含んでおり、監査されたケースのうち少なくとも 59.4% ではテストが機能上正しいソリューションを拒否する不具合が含まれています。その結果、現在の高いスコア(74.9%–80.9%)は主にモデルによるベンチマークデータの暗記を反映しており、本物のコーディング能力の向上ではありません。このトレーニング汚染は、GPT-5 や Claude Opus 4.5 などの最先端モデルが正確なゴールドパッチ、ファイル名、コメントを再現することによって示されています。その上で、OpenAI などの主要な開発者はこのデータセットでスコアを報告するのを中止し、新しい無汚染の評価基準が確立されるまで SWE-bench Pro に切り替えるよう推奨しています。

本文

2024 年 8 月に SWE-bench Verified を初公開以降、業界全体で自律的なソフトウェアエンジニアリングタスクにおけるモデルの進歩を測定するために幅広く採用されています。本 Benchmark のリリース以来、それは能力向上に関する強力なシグナルを示し、最先端モデルの発表に伴う標準指標として位置づけられてきました。また、OpenAI の「備えのための枠組み(Preparedness Framework)」においても、これらの能力の進捗を追跡・予測することは重要な構成要素です。当初、SWE-bench Verified を構築する際には、元々の評価において特定のタスクが不可能になるような問題を解決するために尽力しました。初期段階で大きく向上した後、SWE-bench Verified における最良性能(state-of-the-art)の進捗は鈍化しており、過去 6 ヶ月間でわずか 74.9% から 80.9% への改善にとどまっています。これにより新たな問いが提起されます:残りの失敗事例は、モデル自体の限界によるものなのか、それともデータセットそのものの特性に起因するのか?

新たな分析を通じて、今日のような性能レベルにおいて最先端モデル向けローンチにおける自律的なソフトウェアエンジニアリング能力の進捗を測定するという観点から、SWE-bench Verified はもはや適正でないと判断されるべき二つの重大な問題が存在することが明らかとなりました:

  • 正しい解答が却下されるテスト:モデルがよく失敗する 27.6% のサブセットに対して監査を実施したところ、少なくとも 59.4% に達する監査済み問題において、機能上は正しい提出物を却下してしまう破綻したテストケースが存在することが分かりました。SWE-bench Verified の初期構築時に我们がこれらの問題を改善しようとしたにもかかわらずです。
  • 解答データを用いた学習:大規模な最先端モデルはトレーニングを通じて情報を学習できるため、評価対象となる問題や解答から決して学習してはならないことが重要です。これは、試験本番前に生徒たちに出題と解答を共有してしまうようなものであり、答えを暗記しない場合でも、解答を見ている生徒は見ていない生徒よりも確実に高い成績を取り得ます。SWE-bench の問題は、多くのモデルプロバイダがトレーニング用に利用するオープンソースリポジトリから抽出されています。われわれの分析では、全てのテストされた最先端モデルが、正解として用いられる元ネタとなる人間によって書かれたバグ修正(ゴールドパッチ)や、特定のタスクにおける問題記述の詳細を完全にそのまま再現できており、つまりすべてのモデルがトレーニング中に少なくともこれらの問題や解答の一部に接していたことを示しました。

さらに、トレーニング中に問題に触れたモデルの方が成功確率が向上する証拠も発見しました。これは、未定義のテストを通過するために必要な追加的情報を有しているためです。つまり、SWE-bench Verified における進歩が、モデルの実世界でのソフトウェア開発能力の有意味な向上を反映し続けているとは言い難く、むしろトレーニング時におけるベンチマークへの露出度合いを象徴するものとなっています。そのため、われわれは SWE-bench Verified のスコア報告を終了し、他のモデル開発者にも同様の対応を推奨いたします。これに代わる新たな汚染されていない評価指標の構築を進めており、これは広範な研究コミュニティにとって重要な焦点となるべき分野であると考えます。本評価が確立されるまで、OpenAI は SWE-bench Pro の結果報告を推奨しています。

元々の SWE-bench 評価は 2023 年にリリースされました。各問題は、12 つのオープンソース Python リポジトリの一つから解決済みの GitHub Issue を源とし、それに対応するプルリクエスト(PR)とペアリングされます。モデルが生成したコード変更の正否を判定するため、各問題には以下の二種類のテストセットが付属しています:

  • 未修正のコードベースでは失敗するが、Issue が適切に修正されればパスするテスト
  • 修正前後もパスし、関連しない機能的動作が保たれていることを確認するためのリグレッションテスト

モデルはテスト内容を見ることはできず、元の Issue テキストのみと、修正前のリポジトリの状態を参照してコード変更を生成しなければなりません。提出したコード変更を適用した後で全てのテストがパスした場合にのみ、その問題は「クリア」とみなされます。われわれはその評価において、モデルの能力を見下げる原因となり得る多くの問題を発見しました:

  • 一部のユニットテストが特定の実装詳細に過剰に焦点を当てすぎたり、タスクと整合していないために、正しい修正案さえも却下されてしまうケースがありました。
  • 多くの問題記述は不十分であり、複数の正当な解釈が可能ですが、テストは特定の一つの解釈しかカバーしていませんでした。
  • 環境のセットアップ(例:Linux か Windows か、Python のバージョンなど)によって、一部のテストが偶然に失敗することがありました。

SWE-bench Verified は 2024 年にこれらの課題を解決するために作成されました。専門ソフトウェアエンジニアとの協力の下、1,699 件の SWE-bench 問題をレビューし、上記の問題を抱えたものをフィルタリングしました。各問題については三人の専門家により independently に審査が行われ、その結果、500 件の厳選された問題からなる「SWE-bench Verified」が誕生しました。

SWE-bench Verified は初期バージョンに対して大きな改善をもたらしましたが、依然として残存する課題もあります。OpenAI の o3 モデルが 64 回の独立した実行で一貫して解決できなかった 138 件の SWE-bench Verified 問題について監査を実施し、各ケースについて少なくとも六名の経験豊富なソフトウェアエンジニアによって independently にレビューされました。専門家が問題を指摘した場合、追加のチームで再検証が行われました。

その結果、監査された 138 件の問題のうち 59.4% でテスト設計および/または問題記述に重大な不備が発見され、最も有能なモデルでも人間であっても極めて困難あるいは不可能に近い状態となっていました:

  • 監査タスクの 35.5% は、特定の実装詳細を強制する厳格なテストケースを持ち、機能上は正しい提出物を却下します。これを「狭いテストケース」と呼びます。
  • 18.8% の監査タスクでは、問題記述に明記されていない追加機能的動作を検証するテストが存在します。これを「広いテストケース」と呼びます。
  • 残りの 5.1% はこの分類体系とよくまとまらない雑多な問題を有していました。

第一の失敗モードの具体例として

pylint-dev__pylint-4551
を挙げることができます。この PR では、全体的な解決策の一部として新しい関数
get_annotation
が導入されていますが、問題記述にはこの関数名は言及されていません。テストでは直接インポートされます。いくつかのモデルはこの関数の作成を直感的に行うかもしれませんが、この特定の名前の関数を実装することは、問題の適正な解決には必ずしも必要ではありません。多数の有効な解答がインポートエラーによりテストで失敗しました。

「広すぎるテストケース」の例としては

sympy__sympy-18199
が挙げられます。このタスクは、
nthroot_mod
関数に関する三つの異なる問題(#17373, #17377, #18212)を解決した PR から抽出されています。SWE-bench Verified のタスク記述では、その最後の問題 #18212 のみカバーされています。これにより不整合が生じます:PR テストは三つの問題をすべてカバーする一方、記述はの一つの問題の詳細のみを含んでいます。われわれの実行結果において、モデルは説明された修正を正しく実装することも多いのですが、他の二つ問題の实装をカバーするテストで失敗することがありました。

SWE-bench Verified とそのリポジトリ(コードベースおよびリリースノート)はどちらもオープンソースであり、広く利用・議論されているため、モデル開発者にとっては汚染回避が困難です。われわれ自身のモデルでも最初の汚染の兆候を確認しました。例えば、GPT-5.2 は 31 タスクを解決しましたが、われわれがほぼ不可能と判断したタスクの一つです。

django__django-14725
の場合、テストは明示的に問題記述に要求されていない特定の新しいパラメータ
edit_only
を必要とします。GPT-5.2 がこの問題を解決する際、その思考過程(chain of thought)において、コードベースの変更点を詳述したリリースノートに関する情報を有していること、そして
edit_only
パラメータが Django 4.1 で導入されたことを正しく特定しました。

汚染の規模をより広く評価するため、自動化されたレッドチーム化体制を設定しました。SWE-bench Verified の各問題に対して、GPT-5 を用いて GPT-5.2-Chat, Claude Opus 4.5, Gemini 3 Flash Preview の三つのモデルに汚染の有無を探らせるというタスクを行いました。これらには推論専用モデルは含まれていませんが、それらの間にも非自明な能力の差が存在する可能性を認めざるを得ません。汚染を検出するため、GPT-5 は SWE-bench Verified タスクの ID、記述、ゴールドパッチ、および PR テストを受け取りました。最大 15 回のターンにわたり、システム/開発者プロンプト、ユーザープロンプト、アシスタントプリフィル、そしてさまざまな誘発戦略を GPT-5 に変化させました。各ターンの後、判定モデルが新規タスク固有情報がどの程度出現したかをラベル付けし、各応答は「なし」から「強い」までの汚染の重症度でラベル付けされました。GPT-5 は前回のターンに基づいて戦略を適応させて、逐次的にタスク固有の詳細を取り戻すことができました。強く汚染された各事例について、別の判定モデルを用いて GPT-5 がターゲットモデルへ情報を過度に漏洩していないことを検証しました。最後に、本ブログ投稿に含まれるスクリプトによって構成される「強い」汚染事例を手動でレビューしました。

異なるモデルプロバイダにおける強力な汚染の具体例は以下の通りです:

  • GPT-5.2:タスク記述からの短い断片が与えられた際、GPT-5.2 は正確なゴールドパッチを出力します。特に、クラス名とメソッド名、そして新たに導入された早期リターン条件
    if username is None or password is None
    を正確に把握しています。
  • Claude Opus:Opus は、PR が導入した正確な 4 ラインの機能的変化だけでなく、関連する特定のファイル名とメソッドも想起し、さらに差分の一部であったインラインコメントをそのまま引用します。
  • Gemini 3 Flash:タスクに関する追加情報なしで ID だけが与えられた場合でも、Gemini 3 Flash はタスク記述とゴールドパッチからの正確な詳細を出力できます。これにはユーザー名検証用の新しい正規表現式や、変更の正確な行番号が含まれます。

SWE-bench Verified におけるこの監査を通じて、評価設計に関する二つのより広範な教訓を得ました:

  • 汚染リスク:公開情報から源となる Benchmark は、トレーニングデータへの露出によりスコアが静かに過大評価される汚染リスクを伴います。もしBenchmark の構築にパブリックにクロールされたデータが使用される場合、モデル開発者は追加の汚染テストを行う必要があります。公開される Benchmark そのものやその解答さえもトレーニングデータに含まれてしまう可能性があります。 datasets の公開方法(例:パスワード保護)とトレーニングデータのフィルタリング(例:カナリーストリングへの厳密な準拠)において十分な注意を払う必要があります。
  • 自動採点の課題:自動採点は正しく実装するのが困難です。完璧なテストケースは特定の非重要な実装詳細に対して不感応であり、かつショートカット解答に対しても頑健であるべきです。これら問題は本質的に複雑で解決が難しく、これらの問題を検出するには複数の大規模な人間ラベルリングキャンペーンが必要でした。

われわれはこの発見を最近の評価活動に統合しました。過去数ヶ月間は、SWE-bench Pro の公開分割の結果報告を選択しています。他のモデル開発者にも同様にとめることを推奨します。SWE-bench Pro は完璧ではありませんが、経験的に汚染問題による影響は SWE-bench Verified よりも少なく観察されます。われわれの汚染パイプラインではいくつかの汚染事例を発見しましたが、それらは SWE-bench Verified に比べて顕著に稀で軽微であり、どのモデルも完全なゴールドパッチを出力するに至りませんでした。

われわれは引き続き、オリジナルのプライベート作成ベンチマークへの投資を行い、業界および学界にも同様の取り組みを支援するよう求めてまいります。GDPVal ではドメイン専門家によってタスクが私有で作成されることで露出リスクが軽減され、解答は訓練されたレビュアーによって包括的に評価されます。このアプローチはリソース集約的ですが、真の能力向上を測定するためにはますます不可欠です。

同じ日のほかのニュース

一覧に戻る →

2026/04/27 5:41

「Friendster を 3 万ドルで購入しました。そこで私がどのような取り組みを行っていますか?」

## Japanese Translation: 最初のソーシャルネットワーク、Friendster は 2002 年 3 月 22 日に発売され、2015 年にオフラインになり、ビジネス上の圧力により 2018 年に会社は廃止されました。2023 年 10 月に、前所有者から 7,456 ドルで競標で購入した previously acquired のドメイン friendster.com は、Park.io の創始者によって再活性され、その額は Bitcoin で約 20,000 ドル(当初のオファーは 40,000 ドル)および年間の広告収益で約 9,000 ドルに合意されました。著者はユーザーデータを販売せず、トラッキングアルゴリズムを使用せず、広告を表示せずに Friendster を再構築しました。iOS アプリが作成され、友人を追加するには実際に携帯電話同士をタップさせる必要がありましたが、初期には App Store ガイドライン 4.2 に基づく拒否を受け、その後デザインを変更してコンタクト中心の接続方法を維持しつつオープンな登録を許可しました。改定版アプリは厳格な審査プロセスを経て現在 Apple App Store で公開されています。主な機能には「友達の友達」ビューや、1 年間アクティブでないユーザーとのリンクを徐々に弱める「Fading connections」が含まれます。この復活は、侵襲的な広告やデータによる収益化を行わなくともソーシャルネットワークが成功し、創始者が OkCupid を通じて家族と出会う自身の旅路から着想を得た本物の現実世界のつながりを育むことを示しています。

2026/04/27 5:18

FAS16:ス턱ネットより 5 年前に出現した高精度ソフトウェア・サボタージュ(悪意のある改ざん)ツール。

## Japanese Translation: 最重要な発見は、「Fast16」という高度なサイバーサボタージュフレームワークの発見であり、先進物理学、核研究、暗号学、構造工学(特に LS-DYNA 970 は衝突試験や核シミュレーション向けに、PKPM は設計向けに、MOHID は水動力学向け)で使用される高精度ソフトウェアを静かに破損させる能力を有しています。通常のウイルスとは異なり、Fast16 は計算エンジンに特化して結果の精度を低下させることで、国の科学プロジェクトに深刻な脅威をもたらします。2005 年頃開発された主要なキャリアバイナリ**svcmgmt.exe**(2005 年 8 月 30 日 компィル済み)は、ステクスネットなどの有名な攻撃から 5 年以上、フラムから 3 年以上前に存在しており、埋め込み型の Lua 仮想マシンと共に *fast16.sys* という独自のプロンプト起動カーネルドライバ(2005 年 7 月 19 日 compild)を使用しています。このドライバはシステムファイル操作を傍受し、悪意のある指示を直接メモリに注入することで、感染の明確な兆候なしに破損を引き起こすことを保証します。フレームワークは「wormlet」を配置して、SMB共有とデフォルトパスワードを使用して Windows 2000/XP ネットワーク内に蔓延させますが、十八種類のアンチウイルスシグネチャを確認してから破壊ペイロードを実行するなど、高度な回避戦術も備えています。SentinelLABS は、**fast16.sys**, **svcmgmt.exe**, **connotify.dll** および疑わしいパッチ対象に対する検出ツール、すなわち YARA ルールとハッシュ値(MD5, SHA1, SHA256)を発表しています。この開示は、レガシーコンピューティング環境の再評価を緊急に要求させ、数十年前に存在した休眠的なサボタージュメカニズムが、現代の研究インフラにおいて依然としてアクティブなリスクであるという事実を浮き彫りにしました。

2026/04/27 5:56

サウェーが、競技会でのマラソンタイムで2時間台突破者として初の快挙を成し遂げた。

## Japanese Translation: サベシアヌ・サーウェは、2 時間以内で公式に競技距離のマラソンを完走した初のアスリートとなり、ロンドンマラソンにおいて驚異的なタイムの1 時間59 分30 秒でゴールしました。この画期的な快挙により、ケルビン・キプ Tum が記録していた前歴代記録である 2 時間 00 分 35 秒は破られ、自身のアベレックベストタイムである 2 時間 02 分 27 秒を約 4 分短縮しました。驚くべきことに、サーウェはザ・モールを完走し、前半を 60 分 29 秒、後半を 59 分 01 秒というペースで走り切り、これは過去にハーフマラソンにおいて半世紀以上の記録を持つ男性アスリート計 63 名しか達成したことがありません。彼のパフォーマンスには、エネルギー還元の向上と効率化を目的として設計されたアダピスの最新のスーパースホーズが寄与しました。また、ベルリンでの勝利以前にロンドンに向けて実施された厳格なドーピング検査(独立した試行 25 回分)も安全にクリアしています。エリウド・キプチョゲ氏が 2019 年に 2 時間以内の走りを達成しましたが、環境条件が過度に制御されていたため公式記録の対象外とされました。本レースには他のチャンピオンも参戦しました:ヨミフ・ケジェラは 1 時間59 分41 秒のデビュータイムを記録し、第 2 位でゴールすることで史上 2 人目の 2 時間以内の走りを達成しました。ジャコブ・キプ Limo は 2 キープティム氏の前記録より速いタイム 2 時間 00 分 28 秒でゴールし、表彰台に上りました。エチオピア出身のティグスト・アセファは女子専用レースにおいて自身の世界記録を2 時間15 分41 秒に刷新し、ヘレン・オブイリ氏とジョイスライン・ジェポギェー氏の後に残してタイトルを守りました。マルセル・フック選手は6 年連続でエリート男子用車椅子マラソンを制し、1 時間24 分13 秒のタイムを記録。デイヴィッド・ワイア選手とのタイによりロンドンマラソンの勝利記録を更新しました。キャサリン・デブルナー選手はエリート女子用車椅子マラソンにおいて1 時間38 分29 秒のタイムでタイトルを守り、アメリカ人のタティアナ・マックファデン氏をわずか 5 秒差で下しました。モ・ファラー氏はサーウェ氏の成果を迎え撃した長い期待の milestones であると述べ、これはサーウェ氏一人のためではなく、ロンドンにいる皆のためであるとお礼を述べています。

SWE-bench Verified はもはや最先端レベルの実装能力の評価指標として機能しなくなりました。 | そっか~ニュース