AI エージェントのコストも、指数関数的に上昇しているのでしょうか。(2025 年)

2026/04/15 22:47

AI エージェントのコストも、指数関数的に上昇しているのでしょうか。(2025 年)

RSS: https://news.ycombinator.com/rss

要約

日本語翻訳:

記事は、AI システムと人間の間の長期的なコスト競争力に対して疑問を投げかけ、タスク期間が延長されるにつれてコストが頻繁に人間賃金を上回ることを指摘している。現在の METR ベンチマッピングでは、パフォーマンスの頭打ちレベルに到達するための計算リソース支出に基づいてパフォーマンスを測定するが、人間のスパン(例:時間)に対する実際の経済的コストを正確に反映しない。データは、返報性が低下することを示しており、o3 や GPT-5 などのモデルについては、40 ドルから 350 ドル超の範囲で変動する時給が生じるが、タスクの全スパンでは典型的な人間の労働賃金を大幅に上回っている。いくつかのモデルは「最適点」のコストとして 40 セントを示しているが、高度なモデルは複雑な問題を費用対効果良く解決するにつれて停滞しており、計算能力を指数関数的に増加させる必要がありながらも比例した利益を得られなくなるという状況にある。著者は、パフォーマンスの頭打ちレベルにおける高コストは、現実的な支出水準が欠如しているため、予測される機能性が誤導的であることを示唆していると強調している。分析の限界には、OpenAI の推論モデルに関する価格データの正確性に関する不確実性と、METR 図表におけるアティファクト(人工的な偏り)が含まれる。したがって、将来の AI エージェントは、継続的なスケーリングがマシン側の安価な優位性を喪失し、返報性が低下する局面に至る可能性があることで、複雑な操作上においては人間の労働よりも実用的でない可能性のある、持続不可能な推論コストに直面することになることが示されている。

本文

この傾向が止まる気配を示していないため、人々は自ずとしてこれらを外挿し、エンジニアが 1 つのタスクに要する全日間の作業、あるいは週単位の作業、さらには年単位の作業を行える AI の出現時期を予測しようとしています。しかし、我々はこの推論において決定的な欠落项を持っています—that is、「そのタスクを実行するためのコスト」です。過去 7 年にわたり AI システムは指数関数的な成長を示してきました。モデルの規模(パラメータ数)は 4,000 倍に拡大し、各タスクでの実行回数(生成されたトークン数)は約 10 万倍に増加しました。AI 研究者も多大な効率化を発見していますが、METR で測られる峰值性能のコストが実際には上昇しており、かつその上昇率も指数関数的であることは極めて plausible です。

しかし、必ずしもこれは悪いことばかりではありません。例えば、最高の AI エージェントが毎年タスクを 3 倍の長さへと拡張でき、それに対応するコストも毎年 3 倍ずつ上昇すれば、AI エージェントを用いてタスクを実行するための総コストは、人間が同じタスクを行うコストと同様の倍数比率で一定に維持されます。あるいは、コストの上昇期間(doubling time)が時間軸(time-horizons)よりも長ければ、人間の相対的な価値と比較して AI システムはより廉価になるでしょう。しかし問題は、コストの上昇速度が時間軸よりも速い場合です。その場合には、こうした最先端の AI システムは時間の経過とともに人間に対して次第に費用競争力が低下していくことになります。そうなれば、METR の時限トレンドは誤導的である可能性があります。このトレンドは技術的な到達点(state of the art)の進歩を示しているものの、その一部が計算リソースへの莫大かつ浪費的な投資によるものであるため、経済的な現実とは乖離していしまいます。これでは AI 性能における「F1 ライク」の世界になり、何が可能かを示すことはできても、何が実用的かまでは示せません。したがって、私の見解では問うべき核心的な疑問は、「AI エージェントの『時給』がどのように変化しているのか」です。

ここでいう「時給」とは、LLM を用いてタスクを完了させる際の財務コストで、それをモデルの 50% 時の時間軸(time horizon)で割り換えた値を指します。METR の時限そのものと同様に、これらの時間はモデルが実際に要する時間ではなく、人間が当該タスクを遂行するのに通常要する時間で測定されます。例えば、Claude 4.1 Opus の 50% 時の時間軸は 2 時間です。つまり、ソフトウェアエンジニアが 2 時間を要するタスクの半分(成功率 50%)で成功させることができます。したがって、そのようなタスクを完了させるのに必要なコストを求め、それを 2 で割ることで、この作業におけるそのモデルの時給率を算出できます。私の調査では、極めて少數の人々しかこの疑問を問っていないことが分かりました。私が人々に「これらのコストは時間とともにどのように変化しているか」と尋ねたところ、回答者は大きく分かれていました。ある人々はタスクの長さが指数関数的に拡大しているにもかかわらず、タスク全体の総コストが不変であると想定していました。これは時給率が指数関数的に低下することを意味します。他の人々には、最先端モデルへのアクセス費用が劇的に増大している現実を踏まえ、総コストもまた指数関数的に増加すると想定する者がいました。そして多くの人(私も含まれます)は、現状で AI エージェントが 1 時間のソフトウェアエンジニアリングタスクを行うのにどれほどのコストがかかるのか、ほとんど知らなかったのです。私たちは「セント」の話でしょうか。「ドル」でしょうか?それとも「数百ドル」でしょうか?AI エージェントの時給が人間を完了させるための時給を上回ることはあり得るのでしょうか?それでもいいのでしょうか?

数ヶ月前に、私は METR(Maximum Effort Time Horizon)に対し、ベンチマークに関するコストデータを共有できないか問いかけました。これは単純なはずであると考えたのです。つまり、各モデルに対するベンチマーク実行コストを取得し、リリース日に対してプロットしてその成長傾向を視覚化する。あるいは、各モデルのコストと時限軸の関係をプロットして関連性を確認する。しかし METR は親切に、実際にはそれほど単純ではないことを指摘してくれました。彼らの発表する主要な時限数値は、コストに関わらずモデルが達成し得る最高の性能を示すために設計されているためです。したがって、性能が頭打ち(plateau)したまでモデルをエージェントの足場内で実行しており、本当に頭打ちになっていることを確保するためには大量の計算リソースを使用し、過剰に使用してしまったかどうかはあまり気にしていません。結局のところ、単にグラフの平坦部分の深さを探るだけなら、グラフの平坦な部分深く進むことには問題はありません。しかし、どこで平坦化が始まるかを特定しようとする場合、この戦略には問題があります。各モデルに対する総支出は、頭打ちに至るための最小限であることもあれば、それよりはるかに多いこともあります。したがって、総支出をその性能達成のための直接的なコストの推定値として用いることはできません。幸いに、彼らは時限軸における AI エージェントの時給変動という核心的疑問に光を投げかけるのに役立つチャートを提供してくれました:

このチャート(GPT-5 の METR ページから)は、コストに対する性能の向上を示しています。ここで言う「コスト」とは、タスク完了のためにより多くのトークンを使用する際のコスト(ひいては計算資源の使用量)です。黄色い曲線は各タスクにおける人間の最高性能を表しています。これは定数速度で進行し上昇し、より多くの賃金を変換してより長いタスクへと移行しています。METR の時限作業において縦軸を定義するのは人間性能であるため、この曲線が比較的一定の直線性を示しているのは驚くべきことではありません。8 時間のタスクにソフトウェアエンジニアを送り込むのに必要なコストは、1 時間分のタスクの約 8 倍です。他の色分けされた曲線は、いくつかの LLM ベースのエージェントのパフォーマンスを示しています。人間とは異なり、これらはいずれも限界効用逓減を示しており、追加的な計算リソースが投入されるにつれて、各モデルが達成し得る時限軸は次第に停滞し、頭打ちに至ります。これらの曲線の終盤にある短い上昇は、いくつかのモデルが最後の刻まで回答しないよう調整されているという偽像(artefact)です。これは、上昇直前の一見した平坦化の間にも、モデルは実際には進捗を続けていた(単に表示されていないだけ)ことを示唆しています。実際、このチャートは当初 METR の GPT-5 ページに掲載され、彼らがモデルの実行を本当の性能頭打ちの前に停止してしまった可能性を示すために使用されていました。これらの上昇は分析をより困難にし、将来はこのチャートのバージョンでこうした不具合を回避できるようになりますことを願っています。

さて、このチャートから AI エージェントの時給に関する核心的疑問について何を学べるでしょうか?グラフに潜む教訓を引き出すには、いくつかのアノテーションを追加する必要があります。まず、一定時給率を示す直線を追加します。このような対数スケールでプロットされたグラフでは、すべての一定時給率は傾斜 1 を持つ直線となります。低い時給はより左側に位置する直線として表れます。

各曲線のそばに、そのモデルが達成し得る最低の時給率を示す「接する」一定時給線の追加を行いました。この接触点を当該モデルの「スイートスポット」と呼ぶことができます。モデルのスイートスポットに至るまでの段階では、時限軸はコストに対して超線形的(super-linearly)に成長しており、限界効用が増加しています。スイートスポットは恰好限界効用逓減が始まる点であり(これを直線スケールで再プロットすれば反転点を示す)、したがってどのモデルのパフォーマンス曲線上でも重要な地点です。

グラフから明らかなように、人間のソフトウェアエンジニアの時給はせいぜい 120 ドル/時間ですが、AI エージェントのスイートスポット時の時給は o3 で 40 ドル/時間、Grok 4 および Sonnet 3.5 では驚くべきことに 40 セント/時間まで低下しています。これはかなりのコストの違いです。これらのモデル間の時限軸長さの違いは約 15 倍(終端点またはスイートスポットでの比較)であるのに対し、スイートスポット時の時給率の違いは約 100 倍です。これらは各モデルが達成し得る最良の時給率です。多くのタスク長さ(特に頭に近い部分を含む)では、これらのスイートスポットを離れると時給率は 10 倍から 100 倍高くなります。例えば、Grok 4 はスイートスポット時に 0.40 ドル/時間ですが、最終的な頭打ちの開始点では 13 ドル/時間になります。同様に、GPT-5 の場合、約 45 分要するタスクでは 13 ドル/時間ですが、2 時間要するタスクでは 120 ドル/時間になります。さらに o3 は、フルな 1.5 時間のタスク時限を達成するには(成功率 50% のタスク)、なんと 1 時間当たり 350 ドルという莫大な費用がかかります。まさにこれほど高価にエージェントを購入したにもかかわらず、たった半分しか成功しないようなタスクで失敗するのは許されない額です—特に失敗の影響が全く試さない場合よりも深刻な場合には尚更です。

ただし、私は OpenAI の推理モデルにおけるコストが Anthropic および xAI のモデルと比較して著しく高いことに、若干困惑している点を付け加えておきたいです。METR ページは、これらのモデルの価格データは当時の推定値であったこと(o1 のコストに基づく)を示唆しており、これらの曲線を実際に左に少しずらすべきであり、したがって数倍ほど廉価であるべきではないかと考えます。したがって、彼らが時限軸の満了点において人間労働のコストと同様、あるいはそれ以上になるという事実に過度に依存することは避けるべきでしょう。

スイートスポットに加え、各曲線の飽和点(saturation point)を追加することが理想的です—that is, 頭打ちが始まる地点を表す点です。ただし単に曲線の終端を使用することはできません。なぜならいくつかのモデルは他のモデルより長く頭打ち状態に入り込む可能性があるためです。代わりに、我々は傾斜がスイートスポット時の傾斜の 1/10 に低下した地点を探します。これは、時限軸を 1% 増加させるのにコストを 10% 増やさなければならない点です。あるいは言い換えると、時限軸は計算資源の 1/10 乗の速度でしか成長していない状態です。もちろん「1/10」の数値はいくらか恣意的ですが、スイートスポットと同様に、飽和点に関するいかなる定義も若干ではあっても恣意的である必要があります。以下の通り、この飽和点の定義は直感的な位置と概ね一致しますが、最終的な上昇部への対処法がまだ不明確な点が残っています。

このデータセットにおいてタスク継続時間とコストの間には、弱いが明確な正の相関関係が見られます。さらに、スイートスポットにおけるより長いタスク継続時間は、より高い時給率(=そのモデルで達成し得る最良の時給)と関連しています。

代わりにモデルの飽和点に焦点を当ててみましょう。この定義はいくらか恣意的ですが、METR が時限軸に関する主要な結果で測定しているものに近いものです:

同様に、時限軸とコストの間には相関関係が見られ、また時限軸と共に時給率も上昇しているように見えます。実際、これはモデルの峰值性能が非現実的に高コストで到達する段階に近づいていることを示唆しています。もしこの関係性が継続すれば、METR の主要トレンドから特定の时限が利用可能になるところを予測することは誤導的となり、これらの能力に至る直後にモデルは非現実的に高価になるでしょう。十分低価格まで低下させるために、追加の時間を待つ必要があるでしょう。

その上で、上記の分析にはいくつかの重大な限界があります。理想的には以下を行うべきです:

  • より多くで代表性和高いモデルの曲線を含まれること
  • 上昇部(uptick)の問題に対処する手法を見出すこと
  • OpenAI モデルのコストに関連する問題が存在しないか確認すること
  • 時給率をリリース日に対して明示的にプロットすること
  • 傾向ラインと相関係数を数値的に決定すること

幸いに、METR がこうした分析を実行するのは比較的容易であり、我々は彼らがこれを受け入れることを願っています。

結論

  • AI エージェントのコスト変動について問う人は極めて僅かです。
  • 核心的な疑問は:「LLM エージェントの時給が時間とともにどのように変化しているのか」です。
  • この点に光を当てるためには METR のチャートを活用できます。
  • 一定時給率線、スイートスポット、飽和点を追加する必要があります。

これにより中程度の証拠として得られます:

  • 時限軸の達成コストは指数関数的に上昇していること。
  • 時給率自体も指数関数的に上昇していること。
  • あるモデルの時給率は既に人間のそれと近付いていること。

したがって、以下のような根拠があります:

  • METR のトレンドの一部は、持続不可能な計算推論コストの増加によって駆動されていること。
  • 原理的に可能な時限軸と経済的に実現可能で現実的な時限軸との間に乖離が生じることになるでしょう。
  • AI エージェントの実世界応用は、METR の時限トレンドから次第に大きくなる遅れを示すことになります。

付録

METR は GPT-5.1 Codex ページにも類似したグラフを持っています。これはより多くのモデルを含み、ドルコストではなくトークン数によって比較しています:

同じ日のほかのニュース

一覧に戻る →

2026/04/18 0:04

クロード・デザイン

## Japanese Translation: Anthropic は今日、研究プレビュー段階で一般公開された新しい AI ツール「Claude Design」を発表しました。このツールは、進化した Claude Opus 4.7 vision モデルを基盤としており、テキストやドキュメントを瞬時に視覚デザインに変換する機能を備えています。以前では 20 つ以上のプロンプトが必要だった作業フローをわずか 2 ステップへと大幅に簡素化することで、プロトタイプ制作を容易にします。ユーザーはテキストで要件を記述するか、DOCX、PPTX、XLSX ファイルをアップロードし、Claude が最初の視覚版を作成して改善の余地を残します。オンボーディング時に既存のコードベースに直接統合され、チーム向けデザインシステムを自動的に構築するほか、デザインファイルを读取して共有標準を策定します。 本ツールにはカスタムスライダーやインラインコメントなど、精密な微調整制御に加え、組織範囲での共有機能、プライベートリンク、編集アクセス権、グループチャットといった新たなコラボレーション機能も提供されます。デザインは Canva への完全編集可能なファイルとしての直接エクスポートが可能で、あるいは PDF、PPTX、HTML、社内 URL へも代替的にエクスポートできます。バンドルは Claude Code のための直接実装用としても保存されます。これは、現実的なインタラクティブプロトタイプやワイヤーフレームからピッチデッキ、マーケティング素材、3D 要素など先端デザインに至るまでの用途をカバーします。 現在、claude.ai/design で利用可能です。本サービスは現在の研究プレビュー段階ですが、一日中急速に拡大しており、Pro、Max、Team、Enterprise サブスクリプションのすべてで利用可能になっています。特に、Enterprise ユーザーではデフォルトで機能がオフになっているものの、管理者が Organization 設定からこれを有効にすることで、アクセス管理を好みに合わせて行うことができます。この進歩により、コードを書かずに複雑な素材を作成することが可能となり、デザインサイクルが加速するとともに、ワイヤーフレームからプロダクションまでの移行プロセスにおいてクリエイティブワークフローと開発者ツールを統合することで、そのプロセスが合理化されます。

2026/04/18 6:38

FIL-C の簡略化モデル

## Japanese Translation: Fil-C は、既存の不安全な C/C++ コードベースをメモリ安全性を備えた実装に改修することを目的とした革命的ツールであり、手動による書き換えを必要としません。それは、簡略化されたモデルではソースコード、または生産環境版では LLVM IR を自動的に変換することで達成され、各関数内のポインターにメタデータレコード(`AllocationRecord*` 変数)を付与します。これらのレコードは、可視データ、境界アラインメント用の非公開バイト、および長さ情報を追跡し、参照解除やポインター算術といった標準的な操作を自動的に境界チェックを備えた操作へと書き換えることを可能にします。 このシステムは、標準ライブラリ呼び出しを Fil-C 版(例:`filc_malloc`)で置き換えにより配列を明示的に処理し、かつ廃棄された非公開メタデータオブジェクトの解放にはガバージコレータが担当するというハイブリッドアプローチによってメモリライフサイクルを管理します。これは `AllocationRecord` インスタンス自体が直接子配列を解放しないためです。スタック操作によるエラーを防ぎつつ安全性を保証するため、ローカルスコープからアドレスが流出する変数は自動的にヒープ割り当てに昇進されます。 未確認のレガシーコードベースに対する安全な橋渡しとしての位置づけを持つ Fil-C は、 unsafe ポインター交換を関数呼び出しを超えて防止するというユニークなポインター所有性の性質を持ち、積極的な最適化および並行型ガバージコレータを通じて典型的なメモリ安全性ペナルティを軽減します。最終的に、AddressSanitizer による強力なコンパイル時の安全性保証を提供すると同時に、産業界が既存の大規模コードベースを安全にし、Zig などにおける安全なコンパイル時評価を活用することを可能にします。

2026/04/18 3:17

『全ての 12 人の月面歩行者は、火薬のような匂いのする塵から「月じんかぜ」に苦しんだ(2018 年)』

## 日本語訳: 月面の塵は宇宙探査にとって二重の現実をもたらします:それはアストロノーツにとって即座に命を脅かす危険であると同時に、将来的な植民地にとっては貴重な資源でもあります。主な危険性は、その独自の物理的特性に由来します。やわらかい地球の塵とは異なり、月面の粒子は鋭く研摩性のあるケイ酸塩粒であり、太陽放射と大気による侵食の欠如のため静電的に帯電したままです。これらの小さな棘状の粒子(人間の髪の毛の約 50 倍小さいもの)は、地球重力の 1/6 の環境でも数ヶ月間浮遊し、表面より高く漂浮しながら装備に侵入し、さらに人間肺の奥深くまで到達します。史上 12 人の月面を歩いた宇宙飛行士すべて(其中包括アポロ 17 号のハリーソン・シミュット)によって記録されているように、露出は「月の枯草熱」と呼ばれる症状——喉の痛み、涙目、くしゃみ、鼻閉塞(時に数日続くものも含まれる)——および肺細胞や脳細胞に損傷をもたらす可能性のある長期的毒性を引き起こしました。また、この塵は宇宙船内部で独特な火薬のような燃えた臭いを放ちます。 これらのリスクを安全に研究するために、研究者らはドイツで粉砕された丸みを帯びた火山岩シミュラントを使用して、鋭く有毒な月面粒子への曝露なしに機器故障をモデル化しています。カリフォルニア大学の NASA アストロノート・キム・プリスクを含む 12 人の科学者による野心的なプログラムで、月面塵の毒性リスクが推定されています。生物学者のエリン・トランフィールドは、火山岩を粉砕することで鋭い縁を取り除き、より安全なシミュレーションが可能になると指摘しています。科学顧問のアイドアン・カウリーは有望な応用として、月面土壌を加熱して居住用のレンガを生産したり、レゴリットから酸素を抽出して有人ミッションを維持したりすることを挙げています。同時に、ESA アストロノート・アレクサンダー・ゲーストは減重力下での肺の健康を追跡するための「気道モニタリング」実験を行い、将来の持続可能な月面帰還を支えています。並行して、ESA はオランダのエウレカ研究所内で月面資源に関するワークショップを開催し、これらの機会への研究を推進するとともに、この独自の環境がもたらす重大な健康リスクを軽減することを目指しています。