Apple シリコンの使用には OpenRouter よりも高いコストがかかります。

Japanese Translation:

強力な Apple Silicon搭載 Mac で大規模 AI モデルをローカルに動作させるのは、OpenRouter などの公共クラウド API を利用することよりも一般的に財政的に不経済です。これはハードウェアの初期コストが非常に高いにもかかわらずです。例えば、64GB のメモリと M5 Max チップを搭載した 14 インチの M5 MacBook Pro は 4,299 ドル（※）必要です。負荷時の電力消費量（約 50〜100 ワット）と電気料（約 0.20 ドル/kWh）を考慮すると、ローカル推論には大きな運用コストがかかり、通常のビジネスシナリオにおいてその恩恵がすぐに上回ってしまいます。

ローカルハードウェアの 3 ヶ月から 10 ヶ月の償却期間に電力使用料を加味した場合、M5 Max 上で動作する Gemma 4（31b）あたりの推論コストは片当たり 100 万トークンあたり 0.40 ドルから 4.79 ドルの範囲になります。これに対し、OpenRouter などのクラウドプロバイダーは約 100 万トークンあたり 0.50 ドルの価格で同等のパフォーマンスを提供しており、悲観的なローカルシナリオの約 3 分の 1 の価格です。さらに、クラウド推論は圧倒的に高速であり、秒間 60〜70 トークンの出力に対し、ローカルでは僅か 10〜40 トokens/秒にとどまります。これは M5 Max のパフォーマンスの最大 7 倍に相当します。

また、従業員向けの通常のユースケースにおいては、給与や一般的な計算ニーズが生み出すコストは、AI テキスト生成のコスト（ローカルで生成されたトークンのコストの大約 1,000 倍）という特定のコストよりもはるかに大きくなります。したがって、企業はローカル推論専用ワークステーションへの設備投資を、安価なクラウドサブスクリプションへの資金配分へと転換すべきです。このアプローチにより、不要なハードウェア投資なしに、インフラストラクチャが経済的かつ効率的であることを保証できます。

※注：原文の「$4,299」は米ドル単位ですが、日本語翻訳においては文脈に合わせてそのまま「4,299 ドル」と表記するか、または原語を尊重して「4,299 ドル（米）」と補記する場合がありますが、指示に従い「財政的に不経済」という核心的な意味を保持しつつ自然な日本語表現として「4,299 ドル」としました。

オフライン系エージェント向けコーディング編 3：アップルシリコンのコストは OpenRouter よりも高くなる
公開日：2026 年 5 月 17 日

负载下で消費電力が約 50〜100 ワット、電気料金が kWh あたり約 0.2 ドルの場合、M5 を搭載した MacBook Pro では時間あたりのコストが数セント程度になります。デバイスの寿命を短縮することによって生じる（ある場合の）加速償却益は、電気代よりも高額です。時速数十トークンの処理速度では、100 万トークンあたりの平準化コストは約 1.5 ドルとなります。一方、同等のパフォーマンスを持つモデルを提供する OpenRouter は価格が 3 分の 1 に抑えられながら、速度は約 2 倍速くなっています。

電気代

ノース・バージニア州では私が最後に支払った電気料金が kWh あたり 0.18 ドルでした。計算の容易さからこれを 0.2 ドル/kWh と丸めて上乗せしてみます。
アメリカエネルギー情報局（EIA）によると、2025 年の米国平均家庭用電気料金は kWh あたり 0.1730 ドルです（出典：https://www.eia.gov/electricity/monthly/epm_table_grapher.php?t=table_5_03）。
消費電力が約 50〜100 ワットで電気分率が 0.18 ドル/kWh の場合、時間あたりのコストはそれぞれ 0.009 ドルまたは 0.018 ドルとなり、概ね 0.02 ドル/時間で計算されます。 inference が常時最大負荷（100%）で動作している場合の一日あたりの電気代としては、約 0.48 ドルに相当します。

ハードウェア

Apple の公式サイトでは現在、M5 Max を搭載し RAM 64GB の 14 インチ MacBook Pro が 4,299 ドルでリストされています。128GB に増やすとさらに高くなりますが、64GB でも Gemma 4 (31B パラメータ) というモデルを動作させ、ほぼ Anthropic の Sonnet レベルのパフォーマンスを得られるはずです。
コスト配分の観点から、このハードウェアの耐用年数を 3 年、5 年、あるいは 10 年と想定してみます：
- 3 年の場合：年間コストは 1,433 ドル
- 5 年の場合：年間コストは 860 ドル
- 10 年の場合：年間コストは 430 ドル
この耐用年数に対応する時間あたりのハードウェアコストは以下の通りです：
- 3 年の場合：0.16358 ドル/時間
- 5 年の場合：0.09815 ドル/時間
- 10 年の場合：0.04908 ドル/時間
実用的な耐用年数としては、通常の用途であれば 5 年程度が妥当と考えられます。7 年や 10 年も十分に可能性が高いでしょう。一方、最大負荷での inference が行われる場合は、3 年程度も妥当な見積もりになりえます。

トークノミクス
最も重要な問いは、ローカルで稼働するモデルから時間あたりどれだけのトークンを得られるかです。私の M5 Max を使ったテストでは、Gemma4:31B という本格的なモデルでも時速 10〜40 トークンの範囲にあるようです。

時速 3,600 トークン（秒間 10 トークン）で動作させる場合、3〜10 年の耐用年数と 0.18 ドル/kWh の電気料金に基づくと、100 万トークンあたりのコストは高い方の見積もりで 1.61 ドルから 4.79 ドルとなります。
時速 14,400 トークン（秒間 40 トークン）で動作させる場合、100 万トークンあたりのコストは 0.40 ドルから 1.20 ドルまで下がります。
アップルシリコンにおいては、ハードウェアコストが支配的であると言えます。

OpenRouter では Gemma 4 (31B) が 100 万トークンあたり約 38〜50 セント（0.38〜0.5 ドル）で利用可能です。これに対して楽観的なケース（消費電力 50 ワット、秒間 40 トークン、耐用年数 10 年）では、Pro Max のコストは OpenRouter とほぼ同等ですが、懐疑的なケース（消費電力 100 ワット、耐用年数 3 年、秒間 10 トークン）ではコストが 10 倍になります。会計的観点からは、Pro Max をローカル inference に利用する場合の 100 万トークンあたりの適正コストは約 3 ドル程度だろうと考えています。

結論
今回の議論で最も大きな要因となっているのは inference の速度です。ただし、ほとんどのケースではローカル inference はクラウド inference よりも遅くなります。OpenRouter にて提供されているいくつかの Gemma 4 モデルでは時速 6,000〜7,000 トークン（秒間 60〜70 トークン）に達しており、私の Pro Max での実績（約 10〜20 トークン/秒）の 3〜7 倍もの速度です。労働力の対価という観点から見ると、人間の従業員が業務用ノート PC を使用する場合、その給与コストは、同員がローカルで生成できるトークンのコストの約 1,000 倍に相当します。したがって、Anthropic に投資する方がこの文脈では理にかなっています。
なお、消費機器である消費者向けデバイスが Anthropic の Sonnet レベルに近いパフォーマンスを誇り得ることは、いまだに驚くべきことです。

Apple シリコンの使用には OpenRouter よりも高いコストがかかります。

Japanese Translation:

同じ日のほかのニュース