Apple シリコンの使用には OpenRouter よりも高いコストがかかります。

2026/05/17 21:09

Apple シリコンの使用には OpenRouter よりも高いコストがかかります。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

強力な Apple Silicon搭載 Mac で大規模 AI モデルをローカルに動作させるのは、OpenRouter などの公共クラウド API を利用することよりも一般的に財政的に不経済です。これはハードウェアの初期コストが非常に高いにもかかわらずです。例えば、64GB のメモリと M5 Max チップを搭載した 14 インチの M5 MacBook Pro は 4,299 ドル(※)必要です。負荷時の電力消費量(約 50〜100 ワット)と電気料(約 0.20 ドル/kWh)を考慮すると、ローカル推論には大きな運用コストがかかり、通常のビジネスシナリオにおいてその恩恵がすぐに上回ってしまいます。

ローカルハードウェアの 3 ヶ月から 10 ヶ月の償却期間に電力使用料を加味した場合、M5 Max 上で動作する Gemma 4(31b)あたりの推論コストは片当たり 100 万トークンあたり 0.40 ドルから 4.79 ドルの範囲になります。これに対し、OpenRouter などのクラウドプロバイダーは約 100 万トークンあたり 0.50 ドルの価格で同等のパフォーマンスを提供しており、悲観的なローカルシナリオの約 3 分の 1 の価格です。さらに、クラウド推論は圧倒的に高速であり、秒間 60〜70 トークンの出力に対し、ローカルでは僅か 10〜40 トokens/秒にとどまります。これは M5 Max のパフォーマンスの最大 7 倍に相当します。

また、従業員向けの通常のユースケースにおいては、給与や一般的な計算ニーズが生み出すコストは、AI テキスト生成のコスト(ローカルで生成されたトークンのコストの大約 1,000 倍)という特定のコストよりもはるかに大きくなります。したがって、企業はローカル推論専用ワークステーションへの設備投資を、安価なクラウドサブスクリプションへの資金配分へと転換すべきです。このアプローチにより、不要なハードウェア投資なしに、インフラストラクチャが経済的かつ効率的であることを保証できます。

※注:原文の「$4,299」は米ドル単位ですが、日本語翻訳においては文脈に合わせてそのまま「4,299 ドル」と表記するか、または原語を尊重して「4,299 ドル(米)」と補記する場合がありますが、指示に従い「財政的に不経済」という核心的な意味を保持しつつ自然な日本語表現として「4,299 ドル」としました。

本文

オフライン系エージェント向けコーディング編 3:アップルシリコンのコストは OpenRouter よりも高くなる
公開日:2026 年 5 月 17 日

负载下で消費電力が約 50〜100 ワット、電気料金が kWh あたり約 0.2 ドルの場合、M5 を搭載した MacBook Pro では時間あたりのコストが数セント程度になります。デバイスの寿命を短縮することによって生じる(ある場合の)加速償却益は、電気代よりも高額です。時速数十トークンの処理速度では、100 万トークンあたりの平準化コストは約 1.5 ドルとなります。一方、同等のパフォーマンスを持つモデルを提供する OpenRouter は価格が 3 分の 1 に抑えられながら、速度は約 2 倍速くなっています。

電気代

  • ノース・バージニア州では私が最後に支払った電気料金が kWh あたり 0.18 ドルでした。計算の容易さからこれを 0.2 ドル/kWh と丸めて上乗せしてみます。
  • アメリカエネルギー情報局(EIA)によると、2025 年の米国平均家庭用電気料金は kWh あたり 0.1730 ドルです(出典:https://www.eia.gov/electricity/monthly/epm_table_grapher.php?t=table_5_03)。
  • 消費電力が約 50〜100 ワットで電気分率が 0.18 ドル/kWh の場合、時間あたりのコストはそれぞれ 0.009 ドルまたは 0.018 ドルとなり、概ね 0.02 ドル/時間で計算されます。 inference が常時最大負荷(100%)で動作している場合の一日あたりの電気代としては、約 0.48 ドルに相当します。

ハードウェア

  • Apple の公式サイトでは現在、M5 Max を搭載し RAM 64GB の 14 インチ MacBook Pro が 4,299 ドルでリストされています。128GB に増やすとさらに高くなりますが、64GB でも Gemma 4 (31B パラメータ) というモデルを動作させ、ほぼ Anthropic の Sonnet レベルのパフォーマンスを得られるはずです。
  • コスト配分の観点から、このハードウェアの耐用年数を 3 年、5 年、あるいは 10 年と想定してみます:
    • 3 年の場合:年間コストは 1,433 ドル
    • 5 年の場合:年間コストは 860 ドル
    • 10 年の場合:年間コストは 430 ドル
  • この耐用年数に対応する時間あたりのハードウェアコストは以下の通りです:
    • 3 年の場合:0.16358 ドル/時間
    • 5 年の場合:0.09815 ドル/時間
    • 10 年の場合:0.04908 ドル/時間
  • 実用的な耐用年数としては、通常の用途であれば 5 年程度が妥当と考えられます。7 年や 10 年も十分に可能性が高いでしょう。一方、最大負荷での inference が行われる場合は、3 年程度も妥当な見積もりになりえます。

トークノミクス
最も重要な問いは、ローカルで稼働するモデルから時間あたりどれだけのトークンを得られるかです。私の M5 Max を使ったテストでは、Gemma4:31B という本格的なモデルでも時速 10〜40 トークンの範囲にあるようです。

  • 時速 3,600 トークン(秒間 10 トークン)で動作させる場合、3〜10 年の耐用年数と 0.18 ドル/kWh の電気料金に基づくと、100 万トークンあたりのコストは高い方の見積もりで 1.61 ドルから 4.79 ドルとなります。
  • 時速 14,400 トークン(秒間 40 トークン)で動作させる場合、100 万トークンあたりのコストは 0.40 ドルから 1.20 ドルまで下がります。
  • アップルシリコンにおいては、ハードウェアコストが支配的であると言えます。

OpenRouter では Gemma 4 (31B) が 100 万トークンあたり約 38〜50 セント(0.38〜0.5 ドル)で利用可能です。これに対して楽観的なケース(消費電力 50 ワット、秒間 40 トークン、耐用年数 10 年)では、Pro Max のコストは OpenRouter とほぼ同等ですが、懐疑的なケース(消費電力 100 ワット、耐用年数 3 年、秒間 10 トークン)ではコストが 10 倍になります。会計的観点からは、Pro Max をローカル inference に利用する場合の 100 万トークンあたりの適正コストは約 3 ドル程度だろうと考えています。

結論
今回の議論で最も大きな要因となっているのは inference の速度です。ただし、ほとんどのケースではローカル inference はクラウド inference よりも遅くなります。OpenRouter にて提供されているいくつかの Gemma 4 モデルでは時速 6,000〜7,000 トークン(秒間 60〜70 トークン)に達しており、私の Pro Max での実績(約 10〜20 トークン/秒)の 3〜7 倍もの速度です。労働力の対価という観点から見ると、人間の従業員が業務用ノート PC を使用する場合、その給与コストは、同員がローカルで生成できるトークンのコストの約 1,000 倍に相当します。したがって、Anthropic に投資する方がこの文脈では理にかなっています。
なお、消費機器である消費者向けデバイスが Anthropic の Sonnet レベルに近いパフォーマンスを誇り得ることは、いまだに驚くべきことです。

同じ日のほかのニュース

一覧に戻る →

2026/05/18 6:40

ジェンケイアド

## 日本語訳: GenCAD は、画像から直接編集可能な 3D CAD デザインを生成する AI モデルを作成することで、エンジニアリング分野における画期的な突破を遂げています。以前の方法は複雑なデータ構造に苦戦していましたが、この新しいアプローチは Boundary Representation(B-rep)形式に関連する精度上の課題を克服します。これは、latent command representations と diffusion modeling を含む独自の 4 つのステップのプロセスを通じて実現されており、結果を静的な形状ではなく、実行可能なパラメトリックコマンドとしてデコードします。 この技術は、製造業者やエンジニア向けに設計ワークフローを変革し、完全にモディフィ可能で高精度なモデルを瞬時に作成することを可能にしています。以前は、簡易的な 3D ビジュアルを調整可能なエンジニアリングファイルに変換するには、きつ手間のかかる手作業が必要でしたが、GenCAD はこの障壁を取り除き、ユーザーが設計を容易に反復して改善できる完全な CAD プログラムへの即座のアクセスを提供します。その結果、産業全体が大幅な効率向上を実感し、自律的なツールによって現在、さらなる開発に必要な柔軟性を備えた洗練された編集可能な幾何形状が生成されています。

2026/05/18 6:56

ThinkPad:IBM の弁当箱から、レノボの AI ワークステーションへ

## Japanese Translation: ThinkPad ノートパソコンファミリーは、IBM での公式発売(1992 年 10 月 5 日)以降、同社の所有期間(1992–2005 年)および Lenovo による継承期間(2005 年〜現在)にわたり、連続した納品を実現している長年のエンジニアリングの遺産です。当初は 700C カップシェルとして発表され、Richard Sapper の象徴的なマットブラックケース、10.4 インチの有源マトリックスカラー TFT ディスプレイ、そして Ted Selker の開発した TrackPoint II——ホームROWから指を動かす時間を短縮するポインティングスティック——を搭載していました。2010 年までには納品台数が 6000 万台を超え、買収後のブランドの存続と IBM の元々のエンジニアリング原則の維持を証明しました。デザインは 30 年にわたり大きく進化しましたが、1992 年の時代から現代のモデルである 2025/2026 年製の P14s Gen 6 や X1 Carbon に至るまで視覚的な連続性を保ち続けています。これらの現行モデルは「Strix Point」CPU を採用し、高度な NPU とプレミアム OLED ディスプレイを備えています。初期モデルでは 2012 年まで 7 レーキストANDARD化されており、その後は Precision キーボードに置き換えられましたが、後期の世代では 2012 年から開始されたハンダ付けメモリ制限などの課題もありました。一方、近年の傾向としては、薄い筐体にユーザー交換可能な DDR5 SODIMM を採用するなど、修理可能性への再注力が進んでいます。また、専用ドックから汎用的な USB-C/Thunderbolt 規格へも円滑に移行しています。結局のところ、ThinkPad の成功は、元々のデザイン哲学を尊重しつつ最新技術を統合することで、長期的な市場優位性を維持できることを示しています。

2026/05/18 6:15

プロログによるコーディング・ホラー。

## Japanese Translation: 本記事は、純粋で単調なコーディング慣行への厳格な遵守が、堅牢な Prolog プログラムにとって不可欠であるという主張を展開している。一般的な産業パターンへ偏离することは、言語の述語論的性質を破損させ、高価な欠陥をもたらす。`!/0`、`(->)/2`、および `var/1` などの非単調な構造は、意図された解の喪失か不適切な結果を生じる。`assertz/1` および `retract/1` でグローバルデータベースを改変することは、隠れた依存関係を創出し予期せぬ失敗を引き起こすため、状態は世界の改変を通じてではなく述語の引数を通じて伝達されるべきである。`(is)/2`、`(=:=)/2`、および比較演算子のような低水準のアリティム操作は、開発者に矛盾する述語論的および操作的意味を両立させるよう迫り、プログラムを理解しやすくし、学習・テスト・推論を行うことを難しくする。不純な出力操作もまた、解答を Prolog タームとして記号論的に考察することを阻止する。純粋で単調な Prolog 部分集合を採用し、`dif/2` のような近代の述語論的ツール、`if_/3` のようなメタ述語、およびクリーンなデータ構造を活用することで、開発者はパフォーマンスを維持しつつ一般性・柔軟性・厳格なテスト可能性を取り戻し、プロフェッショナル環境での利用を制限するレガシーの負担から Prolog を解放することができる。

Apple シリコンの使用には OpenRouter よりも高いコストがかかります。 | そっか~ニュース