
2025/12/21 13:06
**AI の長期タスク完遂能力測定**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
本論文では、タイムホライズン指標 を導入し、指定された成功確率(例:50 %)で自律エージェントがタスクを完了できる時間長さを測定します。これによりベンチマークスコアと実世界への影響が結び付けられ、予測やリスク評価の助けとなります。現在の最先端モデルは4分未満のタスクでほぼ完璧な成功率を達成しますが、約4時間を超えるタスクでは10 %以下に落ち込みます。各モデルの成功率とタスク長さとのロジスティック曲線をフィッティングすることで著者らは「タイムホライズン」を定義しています。Claude 3.7 Sonnet の場合、これは約1時間であり、このホライズンは過去6年間で約7か月ごとに倍増してきました。感度解析では、大きな測定誤差があっても予測のずれはわずか2年程度に留まることを示しています。別途、SWE‑Bench Verified データセットではさらに高速で3か月ごとの倍増が観察され、2024–2025 年のデータのみをフィッティングすると、1か月単位のタスクに対する推定は約2.5年短縮されます。著者らは、この指標がベンチマーク性能と実世界への影響を直接結び付けることで、強力な AI システムの予測やリスク管理を改善できると主張しています。全ての研究インフラストラクチャ、データ、および解析コードはオープンソースで公開されており、再現性・拡張性・コミュニティ協力を促進します。
この改訂版では主要ポイントをすべて保持し、「一貫性」という推測された主張を削除し、オープンソース側面を明示的に述べ、2024–2025 年のフィッティングニュアンスを明確化しています。
本文
概要
我々は、自己制御型エージェントが完了できるタスクの長さでAI性能を測定することを提案します。この指標は過去6年間で指数関数的に増加しており、倍化時間は約7か月です。今後10年以内に、この傾向を外挿すると、現在人間が日や週単位で完了しているソフトウェアタスクの大部分をAIエージェントが終了できるようになると予測されます。
主な発見
-
タスク長さと成功率
- 専門家が4分以内に完了するタスクでは、モデルはほぼ100 %の成功率を達成します。
- 約4時間以上必要となるタスクでは、成功率は10 %未満に低下します。
- 「時間軸」(モデルがある確率で成功する人間タスク長さ)は、各モデルの性能データにロジスティック曲線をフィッティングして算出できます。
-
歴史的傾向
- 対数尺度で見ると、時間軸は指数関数的に伸びており、倍化周期は約7か月です。
- 絶対値が10倍程度ずれていても、到達時期の推定はわずか2年ほどしか変動しません。
-
頑健性チェック
- 短いソフトウェアタスクや多様なHCAST/RE‑Bench、長さ・「混沌度」でフィルタリングしたサブセットでも同様の指数増加が確認されます。
- 別データセット(SWE‑Bench Verified)ではさらに高速で倍化周期が3か月未満です。
- 10,000個のランダム摂動を用いた感度分析により、1か月時間軸への到達日付は比較的安定していることが確認されました。
-
最近の傾向
- 2024–2025年のみのデータでフィッティングすると、1か月時間軸に到達する見積もりが約2.5年短縮されます。
含意
- ベンチマーク設計 – タスク長さで性能を測定することで、実世界へのインパクトと解釈可能な絶対指標が整合しやすくなります。
- 予測・リスク管理 – 現在の指数成長が継続すると、10年末までに先端AIシステムは月単位のプロジェクトを自律的に処理できるようになり、大きな恩恵と同時に重大なリスクが生じます。
貢献と機会
- インフラ・データ・解析コードはすべてオープンソースで、再現や拡張が可能です。
- 本プロジェクトはMETRの広範な研究課題の一部であり、AI安全性、予測、評価設計に興味のある方へ雇用ポジションがあります。
著者
Thomas Kwa, Ben West, Joel Becker, Amy Deng, Katharyn Garcia, Max Hasin, Sami Jawhar, Megan Kinniment, Nate Rush, Sydney Von Arx, Ryan Bloom, Thomas Broadley, Haoxing Du, Brian Goodrich, Nikola Jurkovic, Luke Harold Miles, Seraphina Nix, Tao Lin, Neev Parikh, David Rein, Lucas Jun Koba Sato, Hjalmar Wijk, Daniel M. Ziegler, Elizabeth Barnes, Lawrence Chan