
2026/04/15 22:47
AI エージェントのコストも、指数関数的に上昇しているのでしょうか。(2025 年)
RSS: https://news.ycombinator.com/rss
要約▶
日本語翻訳:
記事は、AI システムと人間の間の長期的なコスト競争力に対して疑問を投げかけ、タスク期間が延長されるにつれてコストが頻繁に人間賃金を上回ることを指摘している。現在の METR ベンチマッピングでは、パフォーマンスの頭打ちレベルに到達するための計算リソース支出に基づいてパフォーマンスを測定するが、人間のスパン(例:時間)に対する実際の経済的コストを正確に反映しない。データは、返報性が低下することを示しており、o3 や GPT-5 などのモデルについては、40 ドルから 350 ドル超の範囲で変動する時給が生じるが、タスクの全スパンでは典型的な人間の労働賃金を大幅に上回っている。いくつかのモデルは「最適点」のコストとして 40 セントを示しているが、高度なモデルは複雑な問題を費用対効果良く解決するにつれて停滞しており、計算能力を指数関数的に増加させる必要がありながらも比例した利益を得られなくなるという状況にある。著者は、パフォーマンスの頭打ちレベルにおける高コストは、現実的な支出水準が欠如しているため、予測される機能性が誤導的であることを示唆していると強調している。分析の限界には、OpenAI の推論モデルに関する価格データの正確性に関する不確実性と、METR 図表におけるアティファクト(人工的な偏り)が含まれる。したがって、将来の AI エージェントは、継続的なスケーリングがマシン側の安価な優位性を喪失し、返報性が低下する局面に至る可能性があることで、複雑な操作上においては人間の労働よりも実用的でない可能性のある、持続不可能な推論コストに直面することになることが示されている。
本文
この傾向が止まる気配を示していないため、人々は自ずとしてこれらを外挿し、エンジニアが 1 つのタスクに要する全日間の作業、あるいは週単位の作業、さらには年単位の作業を行える AI の出現時期を予測しようとしています。しかし、我々はこの推論において決定的な欠落项を持っています—that is、「そのタスクを実行するためのコスト」です。過去 7 年にわたり AI システムは指数関数的な成長を示してきました。モデルの規模(パラメータ数)は 4,000 倍に拡大し、各タスクでの実行回数(生成されたトークン数)は約 10 万倍に増加しました。AI 研究者も多大な効率化を発見していますが、METR で測られる峰值性能のコストが実際には上昇しており、かつその上昇率も指数関数的であることは極めて plausible です。
しかし、必ずしもこれは悪いことばかりではありません。例えば、最高の AI エージェントが毎年タスクを 3 倍の長さへと拡張でき、それに対応するコストも毎年 3 倍ずつ上昇すれば、AI エージェントを用いてタスクを実行するための総コストは、人間が同じタスクを行うコストと同様の倍数比率で一定に維持されます。あるいは、コストの上昇期間(doubling time)が時間軸(time-horizons)よりも長ければ、人間の相対的な価値と比較して AI システムはより廉価になるでしょう。しかし問題は、コストの上昇速度が時間軸よりも速い場合です。その場合には、こうした最先端の AI システムは時間の経過とともに人間に対して次第に費用競争力が低下していくことになります。そうなれば、METR の時限トレンドは誤導的である可能性があります。このトレンドは技術的な到達点(state of the art)の進歩を示しているものの、その一部が計算リソースへの莫大かつ浪費的な投資によるものであるため、経済的な現実とは乖離していしまいます。これでは AI 性能における「F1 ライク」の世界になり、何が可能かを示すことはできても、何が実用的かまでは示せません。したがって、私の見解では問うべき核心的な疑問は、「AI エージェントの『時給』がどのように変化しているのか」です。
ここでいう「時給」とは、LLM を用いてタスクを完了させる際の財務コストで、それをモデルの 50% 時の時間軸(time horizon)で割り換えた値を指します。METR の時限そのものと同様に、これらの時間はモデルが実際に要する時間ではなく、人間が当該タスクを遂行するのに通常要する時間で測定されます。例えば、Claude 4.1 Opus の 50% 時の時間軸は 2 時間です。つまり、ソフトウェアエンジニアが 2 時間を要するタスクの半分(成功率 50%)で成功させることができます。したがって、そのようなタスクを完了させるのに必要なコストを求め、それを 2 で割ることで、この作業におけるそのモデルの時給率を算出できます。私の調査では、極めて少數の人々しかこの疑問を問っていないことが分かりました。私が人々に「これらのコストは時間とともにどのように変化しているか」と尋ねたところ、回答者は大きく分かれていました。ある人々はタスクの長さが指数関数的に拡大しているにもかかわらず、タスク全体の総コストが不変であると想定していました。これは時給率が指数関数的に低下することを意味します。他の人々には、最先端モデルへのアクセス費用が劇的に増大している現実を踏まえ、総コストもまた指数関数的に増加すると想定する者がいました。そして多くの人(私も含まれます)は、現状で AI エージェントが 1 時間のソフトウェアエンジニアリングタスクを行うのにどれほどのコストがかかるのか、ほとんど知らなかったのです。私たちは「セント」の話でしょうか。「ドル」でしょうか?それとも「数百ドル」でしょうか?AI エージェントの時給が人間を完了させるための時給を上回ることはあり得るのでしょうか?それでもいいのでしょうか?
数ヶ月前に、私は METR(Maximum Effort Time Horizon)に対し、ベンチマークに関するコストデータを共有できないか問いかけました。これは単純なはずであると考えたのです。つまり、各モデルに対するベンチマーク実行コストを取得し、リリース日に対してプロットしてその成長傾向を視覚化する。あるいは、各モデルのコストと時限軸の関係をプロットして関連性を確認する。しかし METR は親切に、実際にはそれほど単純ではないことを指摘してくれました。彼らの発表する主要な時限数値は、コストに関わらずモデルが達成し得る最高の性能を示すために設計されているためです。したがって、性能が頭打ち(plateau)したまでモデルをエージェントの足場内で実行しており、本当に頭打ちになっていることを確保するためには大量の計算リソースを使用し、過剰に使用してしまったかどうかはあまり気にしていません。結局のところ、単にグラフの平坦部分の深さを探るだけなら、グラフの平坦な部分深く進むことには問題はありません。しかし、どこで平坦化が始まるかを特定しようとする場合、この戦略には問題があります。各モデルに対する総支出は、頭打ちに至るための最小限であることもあれば、それよりはるかに多いこともあります。したがって、総支出をその性能達成のための直接的なコストの推定値として用いることはできません。幸いに、彼らは時限軸における AI エージェントの時給変動という核心的疑問に光を投げかけるのに役立つチャートを提供してくれました:
このチャート(GPT-5 の METR ページから)は、コストに対する性能の向上を示しています。ここで言う「コスト」とは、タスク完了のためにより多くのトークンを使用する際のコスト(ひいては計算資源の使用量)です。黄色い曲線は各タスクにおける人間の最高性能を表しています。これは定数速度で進行し上昇し、より多くの賃金を変換してより長いタスクへと移行しています。METR の時限作業において縦軸を定義するのは人間性能であるため、この曲線が比較的一定の直線性を示しているのは驚くべきことではありません。8 時間のタスクにソフトウェアエンジニアを送り込むのに必要なコストは、1 時間分のタスクの約 8 倍です。他の色分けされた曲線は、いくつかの LLM ベースのエージェントのパフォーマンスを示しています。人間とは異なり、これらはいずれも限界効用逓減を示しており、追加的な計算リソースが投入されるにつれて、各モデルが達成し得る時限軸は次第に停滞し、頭打ちに至ります。これらの曲線の終盤にある短い上昇は、いくつかのモデルが最後の刻まで回答しないよう調整されているという偽像(artefact)です。これは、上昇直前の一見した平坦化の間にも、モデルは実際には進捗を続けていた(単に表示されていないだけ)ことを示唆しています。実際、このチャートは当初 METR の GPT-5 ページに掲載され、彼らがモデルの実行を本当の性能頭打ちの前に停止してしまった可能性を示すために使用されていました。これらの上昇は分析をより困難にし、将来はこのチャートのバージョンでこうした不具合を回避できるようになりますことを願っています。
さて、このチャートから AI エージェントの時給に関する核心的疑問について何を学べるでしょうか?グラフに潜む教訓を引き出すには、いくつかのアノテーションを追加する必要があります。まず、一定時給率を示す直線を追加します。このような対数スケールでプロットされたグラフでは、すべての一定時給率は傾斜 1 を持つ直線となります。低い時給はより左側に位置する直線として表れます。
各曲線のそばに、そのモデルが達成し得る最低の時給率を示す「接する」一定時給線の追加を行いました。この接触点を当該モデルの「スイートスポット」と呼ぶことができます。モデルのスイートスポットに至るまでの段階では、時限軸はコストに対して超線形的(super-linearly)に成長しており、限界効用が増加しています。スイートスポットは恰好限界効用逓減が始まる点であり(これを直線スケールで再プロットすれば反転点を示す)、したがってどのモデルのパフォーマンス曲線上でも重要な地点です。
グラフから明らかなように、人間のソフトウェアエンジニアの時給はせいぜい 120 ドル/時間ですが、AI エージェントのスイートスポット時の時給は o3 で 40 ドル/時間、Grok 4 および Sonnet 3.5 では驚くべきことに 40 セント/時間まで低下しています。これはかなりのコストの違いです。これらのモデル間の時限軸長さの違いは約 15 倍(終端点またはスイートスポットでの比較)であるのに対し、スイートスポット時の時給率の違いは約 100 倍です。これらは各モデルが達成し得る最良の時給率です。多くのタスク長さ(特に頭に近い部分を含む)では、これらのスイートスポットを離れると時給率は 10 倍から 100 倍高くなります。例えば、Grok 4 はスイートスポット時に 0.40 ドル/時間ですが、最終的な頭打ちの開始点では 13 ドル/時間になります。同様に、GPT-5 の場合、約 45 分要するタスクでは 13 ドル/時間ですが、2 時間要するタスクでは 120 ドル/時間になります。さらに o3 は、フルな 1.5 時間のタスク時限を達成するには(成功率 50% のタスク)、なんと 1 時間当たり 350 ドルという莫大な費用がかかります。まさにこれほど高価にエージェントを購入したにもかかわらず、たった半分しか成功しないようなタスクで失敗するのは許されない額です—特に失敗の影響が全く試さない場合よりも深刻な場合には尚更です。
ただし、私は OpenAI の推理モデルにおけるコストが Anthropic および xAI のモデルと比較して著しく高いことに、若干困惑している点を付け加えておきたいです。METR ページは、これらのモデルの価格データは当時の推定値であったこと(o1 のコストに基づく)を示唆しており、これらの曲線を実際に左に少しずらすべきであり、したがって数倍ほど廉価であるべきではないかと考えます。したがって、彼らが時限軸の満了点において人間労働のコストと同様、あるいはそれ以上になるという事実に過度に依存することは避けるべきでしょう。
スイートスポットに加え、各曲線の飽和点(saturation point)を追加することが理想的です—that is, 頭打ちが始まる地点を表す点です。ただし単に曲線の終端を使用することはできません。なぜならいくつかのモデルは他のモデルより長く頭打ち状態に入り込む可能性があるためです。代わりに、我々は傾斜がスイートスポット時の傾斜の 1/10 に低下した地点を探します。これは、時限軸を 1% 増加させるのにコストを 10% 増やさなければならない点です。あるいは言い換えると、時限軸は計算資源の 1/10 乗の速度でしか成長していない状態です。もちろん「1/10」の数値はいくらか恣意的ですが、スイートスポットと同様に、飽和点に関するいかなる定義も若干ではあっても恣意的である必要があります。以下の通り、この飽和点の定義は直感的な位置と概ね一致しますが、最終的な上昇部への対処法がまだ不明確な点が残っています。
このデータセットにおいてタスク継続時間とコストの間には、弱いが明確な正の相関関係が見られます。さらに、スイートスポットにおけるより長いタスク継続時間は、より高い時給率(=そのモデルで達成し得る最良の時給)と関連しています。
代わりにモデルの飽和点に焦点を当ててみましょう。この定義はいくらか恣意的ですが、METR が時限軸に関する主要な結果で測定しているものに近いものです:
同様に、時限軸とコストの間には相関関係が見られ、また時限軸と共に時給率も上昇しているように見えます。実際、これはモデルの峰值性能が非現実的に高コストで到達する段階に近づいていることを示唆しています。もしこの関係性が継続すれば、METR の主要トレンドから特定の时限が利用可能になるところを予測することは誤導的となり、これらの能力に至る直後にモデルは非現実的に高価になるでしょう。十分低価格まで低下させるために、追加の時間を待つ必要があるでしょう。
その上で、上記の分析にはいくつかの重大な限界があります。理想的には以下を行うべきです:
- より多くで代表性和高いモデルの曲線を含まれること
- 上昇部(uptick)の問題に対処する手法を見出すこと
- OpenAI モデルのコストに関連する問題が存在しないか確認すること
- 時給率をリリース日に対して明示的にプロットすること
- 傾向ラインと相関係数を数値的に決定すること
幸いに、METR がこうした分析を実行するのは比較的容易であり、我々は彼らがこれを受け入れることを願っています。
結論
- AI エージェントのコスト変動について問う人は極めて僅かです。
- 核心的な疑問は:「LLM エージェントの時給が時間とともにどのように変化しているのか」です。
- この点に光を当てるためには METR のチャートを活用できます。
- 一定時給率線、スイートスポット、飽和点を追加する必要があります。
これにより中程度の証拠として得られます:
- 時限軸の達成コストは指数関数的に上昇していること。
- 時給率自体も指数関数的に上昇していること。
- あるモデルの時給率は既に人間のそれと近付いていること。
したがって、以下のような根拠があります:
- METR のトレンドの一部は、持続不可能な計算推論コストの増加によって駆動されていること。
- 原理的に可能な時限軸と経済的に実現可能で現実的な時限軸との間に乖離が生じることになるでしょう。
- AI エージェントの実世界応用は、METR の時限トレンドから次第に大きくなる遅れを示すことになります。
付録
METR は GPT-5.1 Codex ページにも類似したグラフを持っています。これはより多くのモデルを含み、ドルコストではなくトークン数によって比較しています: