**AI の長期タスク完遂能力測定**

2025/12/21 13:06

**AI の長期タスク完遂能力測定**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
本論文では、タイムホライズン指標 を導入し、指定された成功確率(例:50 %)で自律エージェントがタスクを完了できる時間長さを測定します。これによりベンチマークスコアと実世界への影響が結び付けられ、予測やリスク評価の助けとなります。現在の最先端モデルは4分未満のタスクでほぼ完璧な成功率を達成しますが、約4時間を超えるタスクでは10 %以下に落ち込みます。各モデルの成功率とタスク長さとのロジスティック曲線をフィッティングすることで著者らは「タイムホライズン」を定義しています。Claude 3.7 Sonnet の場合、これは約1時間であり、このホライズンは過去6年間で約7か月ごとに倍増してきました。感度解析では、大きな測定誤差があっても予測のずれはわずか2年程度に留まることを示しています。別途、SWE‑Bench Verified データセットではさらに高速で3か月ごとの倍増が観察され、2024–2025 年のデータのみをフィッティングすると、1か月単位のタスクに対する推定は約2.5年短縮されます。著者らは、この指標がベンチマーク性能と実世界への影響を直接結び付けることで、強力な AI システムの予測やリスク管理を改善できると主張しています。全ての研究インフラストラクチャ、データ、および解析コードはオープンソースで公開されており、再現性・拡張性・コミュニティ協力を促進します。

この改訂版では主要ポイントをすべて保持し、「一貫性」という推測された主張を削除し、オープンソース側面を明示的に述べ、2024–2025 年のフィッティングニュアンスを明確化しています。

本文

概要

我々は、自己制御型エージェントが完了できるタスクの長さでAI性能を測定することを提案します。この指標は過去6年間で指数関数的に増加しており、倍化時間は約7か月です。今後10年以内に、この傾向を外挿すると、現在人間が日や週単位で完了しているソフトウェアタスクの大部分をAIエージェントが終了できるようになると予測されます。


主な発見

  • タスク長さと成功率

    • 専門家が4分以内に完了するタスクでは、モデルはほぼ100 %の成功率を達成します。
    • 約4時間以上必要となるタスクでは、成功率は10 %未満に低下します。
    • 「時間軸」(モデルがある確率で成功する人間タスク長さ)は、各モデルの性能データにロジスティック曲線をフィッティングして算出できます。
  • 歴史的傾向

    • 対数尺度で見ると、時間軸は指数関数的に伸びており、倍化周期は約7か月です。
    • 絶対値が10倍程度ずれていても、到達時期の推定はわずか2年ほどしか変動しません。
  • 頑健性チェック

    • 短いソフトウェアタスクや多様なHCAST/RE‑Bench、長さ・「混沌度」でフィルタリングしたサブセットでも同様の指数増加が確認されます。
    • 別データセット(SWE‑Bench Verified)ではさらに高速で倍化周期が3か月未満です。
    • 10,000個のランダム摂動を用いた感度分析により、1か月時間軸への到達日付は比較的安定していることが確認されました。
  • 最近の傾向

    • 2024–2025年のみのデータでフィッティングすると、1か月時間軸に到達する見積もりが約2.5年短縮されます。

含意

  1. ベンチマーク設計 – タスク長さで性能を測定することで、実世界へのインパクトと解釈可能な絶対指標が整合しやすくなります。
  2. 予測・リスク管理 – 現在の指数成長が継続すると、10年末までに先端AIシステムは月単位のプロジェクトを自律的に処理できるようになり、大きな恩恵と同時に重大なリスクが生じます。

貢献と機会

  • インフラ・データ・解析コードはすべてオープンソースで、再現や拡張が可能です。
  • 本プロジェクトはMETRの広範な研究課題の一部であり、AI安全性、予測、評価設計に興味のある方へ雇用ポジションがあります。

著者

Thomas Kwa, Ben West, Joel Becker, Amy Deng, Katharyn Garcia, Max Hasin, Sami Jawhar, Megan Kinniment, Nate Rush, Sydney Von Arx, Ryan Bloom, Thomas Broadley, Haoxing Du, Brian Goodrich, Nikola Jurkovic, Luke Harold Miles, Seraphina Nix, Tao Lin, Neev Parikh, David Rein, Lucas Jun Koba Sato, Hjalmar Wijk, Daniel M. Ziegler, Elizabeth Barnes, Lawrence Chan

同じ日のほかのニュース

一覧に戻る →

2025/12/22 3:09

**ロギングは最低だ**

## Japanese Translation: > **要約:** > ログは通常のアプリケーション起動を記録しています。HttpServer が 0.0.0.0:3000 で開始し、PostgreSQL プールが 20 コネクションで初期化され、リクエスト処理中に Redis キャッシュルックアップが行われます。`/api/v1/users/me` への GET は遅いデータベースクエリ(847 ms)と失敗した Redis ルックアップをトリガーし、3 回の DB クエリと 1 回の外部呼び出し後にリクエストが正常に完了します。 > その直後に PostgreSQL プールが枯渇します:20 個のアクティブコネクションと 147 件の待機リクエストがあり、タイムアウトを示唆(「pool_size を増やすかクエリを最適化」)します。同時に、支払ゲートウェイへの繰り返しタイムアウトにより `payment-api` のサーキットブレーカーが閉鎖状態から開放状態へ 5 回の失敗後に遷移します。 > システムはまた、重要なメモリ圧力(ヒープ ~1.93 GB / 2.14 GB 制限)と GC ポーズ (~847 ms) をログします。バックグラウンドジョブ(`weekly_email_digest`)は低優先度キューで実行され、2341 ms で完了し、1847 通のメールを送信、3 件が失敗しました。 > これらのイベントは、現在の DB プールサイズとクエリ性能が負荷に対して不十分であることを示しています。調整なしではリクエスト遅延が増加し、さらにサーキットブレーカーが頻繁に開放されることでユーザー体験が低下します。

2025/12/22 5:55

ローカルコーディングモデルへのガイド

## Japanese Translation: ## 要約 この記事は、非常に高性能なMacBook Pro(特に**128 GBのRAMを搭載したモデル)がローカルで大規模言語モデルを動かせることを主張し、高価なAIコーディングサブスクリプションを排除または劇的に削減でき、ほとんどの開発タスクで同等のパフォーマンスを提供すると述べています。 ローカルモデルが典型的なソフトウェア開発作業の約**90 %**をカバーし、Claude Codeなどのサービスと同様であること、残りの**10 %**は多くの場合重要な本番機能に関わることを説明しています。 メモリ要件は次のように定量化されています:30億パラメータモデルは16ビット精度で約**60 GBのRAM**が必要です。**8ビット重みなどの量子化**や**ハイブリッドアテンション**といった手法でその需要を下げることができますが、著者はさらなるKVキャッシュ量子化がパフォーマンスに悪影響を与える可能性があると指摘しています。 実用的な可行性は **MLXベースのMacBook Proセットアップ** で示されており、macOS最適化されたサービング(MLX)がOllamaなどのクロスプラットフォームオプションよりもトークン処理速度で優れていることを確認しています。実際の手順としては macOS のVRAM制限を増やす (`sudo sysctl iogpu.wired_limit_mb=110000`)、`mlx-lm` をインストールし、次のようなサーバーコマンドを実行することが挙げられます: `python -m mlx_lm.server --model mlx-community/Qwen3-Next-80B-A3B-Instruct-8bit`。 記事ではまた、OpenAI API標準をサポートするローカルコーディングツールの推奨リスト(**OpenCode, Aider, Qwen Code, Roo Code, Continue**)も紹介しています。多くのコードエディタがテスト時にツール呼び出し統合が壊れたり不完全だったことを指摘し、ツール品質の重要性を強調しています。 主な発見:ローカルモデルはクラウドフロンティアツールより**1世代遅れることが多い**ものの、多くのタスクを十分に処理できるため、低価格サブスクリプションや無料オプションと組み合わせてローカルフォールバックを持つことで価値があります。 将来展望:ローカルモデルが縮小・改善し、クラウド価格が上昇するにつれて、**高RAMノートパソコンはコスト意識のある開発者にとってますます魅力的**になるでしょう。これには費用節約、信頼性(プロバイダー停止なし)、プライバシー/セキュリティ(データがマシン上に留まる)、オフライン可用性といったメリットが含まれます。

2025/12/22 6:07

ギフトカードの責任回収ポイント

## Japanese Translation: ### 要約 ギフトカード詐欺は増加傾向にあるものの、ほとんど規制されていないため、消費者や商取引先がほぼ無防備で、救済策も限られています。デビットカード窃盗は消費者保護責任移転によって恩恵を受けますが、ギフトカードはその保護の対象外であり、被害者が損失を取り戻すことはほとんどありません。2024 年に FBI インターネット犯罪苦情センターは、盗まれたカード番号と PIN を含む詐欺額 166 億ドルを記録しました。犯人はその価値を現金化したり、暗号資産や商品へ変換したり、洗浄サービスのサプライチェーンを通じて処理します。 AARP の最近のポッドキャスト広告で「ギフトカードで支払うことを求めるのは常に詐欺だ」と主張する内容は、実際には多くの企業や非銀行利用者が正当に使用しているこれらの金融商品を誤解させています。この広告は、歴史的な規制不足が日常購入でギフトカードに依存する人々に実質的なコストを課していることを隠しています。 小売業者は、規制や運用上の複雑性から、Blackhawk Network や InComm Payments などの専門家にギフトカードプログラムを外部委託することがよくあります。連邦・州法(ほとんどのギフトカードを免除するが未請求残高の報告を要求するエスケートメント法、プリペイド決済の例外規定である Regulation E、および 2,000 ドル以下のクローズド・ループギフトカードを KYC/AML から免除する FinCEN 規則)は、プリペイドカードがほぼ未規制であるギャップを生み出します。1 日あたり 10,000 ドル以上の販売がある場合、発行者は再び FinCEN の監視対象になります。 これらの規制の空白により、多くのプロバイダーは堅牢な詐欺調査プロセスを欠いています。窃盗を報告した顧客は通常、迅速な補償ではなく警察への届出を促されます。Paysafe やその Openbucks 子会社などの企業は、ギフトカードを支払手段として使用し、銀行口座がないまたは少ない消費者向けに代替金融サービスプラットフォームを構築しており、この許容的な環境で事業を展開しています。 専門家や擁護団体は、従来の銀行サービスとは異なる人口層を対象としているため、これらの代替 FS エコシステムを誤解しがちです。この記事では、AARP のギフトカードに関する警告が歴史的な規制の抜け穴から生じており、それがギフトカードに依存する消費者に実質的な負担をもたらしていることを強調しています。

**AI の長期タスク完遂能力測定** | そっか~ニュース