
2026/01/21 4:03
LLM をベンチマークしていないと、過剰に支払っている可能性があります。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Summary
この記事では、多くの企業が実際に使用しているプロンプトと比較して代替手段をベンチマークしないため、ラージランゲージモデル(LLM)APIで過剰に費用を支払っていることを説明しています。Evalryというノーコードツールが登場し、ユーザーは実際の会話を使って数十個のモデルを迅速にテストでき、それぞれの品質・コスト・レイテンシでスコアリングできます。
AI搭載のスタートアップは、GPT‑5 API呼び出しに月1,500ドル支払っていたところ、Evalry を通じて見つけた安価なオプションへ切り替えることで約 80%(≈1,000ドル/月) の支出削減を実現しました。
リアルなベンチマークを作成するために、著者は約 50件の実際のカスタマーサポート会話 を抽出し、期待される回答を定義し、自動ジャッジ(Opus 4.5)を使用して各出力を 1〜10 のスケールで評価しました。同じプロンプトは 100+ LLM に対して OpenRouter の単一 SDK コールで実行され、モデルごとのプロンプト/期待値/実際の回答を含むデータフレームが生成されました。
コストは 1 回あたりの総トークンコスト(プロンプト+応答) で測定し、可変長応答に対応しています。レイテンシは完全な返信を生成するまでの合計時間として記録され、カスタマーサポートユースケースでは低レイテンシが重要です。
モデルは 品質・コスト・レイテンシ の各面で評価され、パレートフロンティア分析により全三軸で支配されないモデルが特定されました。GPT‑5 から安価なモデルへ切り替えることで最大 10 倍の低コスト を実現しつつ同等の品質を保ち、慎重な選択では約 5 倍 の節約が可能でした。
こうしたベンチマーク構築は手間がかかるため Evalry が作られました。ツールは 300+ LLM に対してユーザープロンプトをベンチマークし、品質・速度・コストを比較し、より良いモデルの継続的な監視も提供します。約 5 分でコスト削減効果を特定 でき、自動でトップ代替案を提案できます。
LLM API を実際のプロンプトでテストせずに支払っている人は Evalry を検討するよう著者は促しており、過剰支払いの可能性があると警告しています。
本文
先月、友人のLLM‑API請求を80 %削減する手助けができました。
彼は非技術系創業者でAI搭載ビジネスを立ち上げており、多くの人と同じように「デフォルトだから」とGPT‑5を選びました。
- API はすでに設定済み
- モデルには確かなベンチマークがある
- ほぼ全員が使っている ― 「面倒見る必要はない?」
しかし利用量が増えるにつれて請求額も伸び、API呼び出しだけで月1,500 ドルになりました。
実際のプロンプトを100+モデルと比較した結果、GPT‑5 は確かに良い選択肢ですが、最安値になることはほぼなく、同等以上の品質を持つより安価なオプションが常に存在することがわかりました。これで数千ドルもの節約につながったのです。
問題点:ベンチマークはタスク別性能を予測できない
LLM を選ぶとき、多くの人は好きなプロバイダーからモデルを一つ選びます。私の場合は Anthropic が主流で、タスクに応じて Opus、Sonnet、Haiku を使い分けています。高度な分析が必要なら Artificial Analysis, LM‑Arena などのベンチマーク(GPQA Diamond, AIME, SWE Bench, MATH 500, Humanity’s Last Exam, ARC‑AGI, MMLU…)を参照します。
しかしこれらは「あなたのタスクでどれだけうまく動くか」を予測できません:
- 推論ベンチマークが高いモデルが、損害コスト推定では中途半端
- ユーザー母国語でのカスタマーサポート
- Playwright を使ったデータ抽出
- 何を作っているかに応じたその他のケース
ベンチマークはざっくりした指標に過ぎず、コストは考慮されていません。最良の選択は「実際のプロンプトでテストし、品質・費用・レイテンシを総合的に判断する」しかありません。
自分たちでベンチマークを作る
ステップ 1 – 実例を集める
WHAPI から実際のサポートチャットを抽出しました。
各チャットは会話履歴、顧客の最新メッセージ、友人が送った回答を含みます。また、手動で作成したプロンプトとこのチャットツール内で使ったプロンプトも提供されました。
そこから約 50件(主に FAQ だが、一部は特定の振る舞いを求めるエッジケース)を選びました。
ステップ 2 – 期待出力を定義
各例について、友人の実際の回答を「期待出力」としました。さらに評価基準も設定:
- 例えば「この製品は 5.99 ドルで、今すぐ注文できる」など、良い回答が何かを明確に。
- 「返品ポリシーは 30 日以内に返送可だが、顧客は購入後二か月余ってから返却した」など。
ステップ 3 – ベンチマークデータセット作成
単純なフォーマットを確立しました:
prompt (会話 + 指示) → 期待回答
この形式はあらゆるユースケースで使えます。もし特定モデルが優れていると分かっていれば、そのモデルで生成した回答を修正して期待値に合わせることも可能です。
ステップ 4 – 全モデルで実行
ベンチマークしたい全ての LLM を実際に走らせました。実装を簡単にするため、同一 API の背後にある多種多様なモデルを網羅している OpenRouter を選びました:
from openai import OpenAI client = OpenAI( base_url="https://openrouter.ai/api/v1", api_key="<OPENROUTER_API_KEY>", ) completion = client.chat.completions.create( model="openai/gpt-5", # もしくは "anthropic/claude-opus-4.5", "google/gemini-3-pro-preview" … messages=[{"role": "user", "content": "Hello!"}] )
50+ モデルを走らせると、以下のデータフレームが得られました:
| プロンプト | 期待回答 | 実際回答(各モデル) |
大量に出てきたため手動評価は不可能でした。
ステップ 5 – LLM‑as‑Judge でスコア付け
評価者として別の LLM を使いました。サンプルごとに Opus 4.5 に「実際回答が期待回答とどれだけ一致するか」を 1–10 の尺度で評価させました。ステップ 2 で設定した具体的基準を与えることで、安定して信頼できるスコアが得られます。
またサンプル数の一部を自分たちでもチェックし、一致度に問題があればプロンプトを調整しました。最終ワークフローは:
プロンプト → 期待回答 + モデル回答 → 評価者(スコア&理由)
最適モデルの選択
品質スコアが手元になったので、実際にどれを採用するか決める段階です。
重要ポイント
- 品質 – 回答が期待回答にどれだけ近いか。
- 費用 – 全体のトークンコスト(プロンプト + 応答)。各ユースケース/ベンチマークで平均化しました。
- レイテンシ – 完全な応答を受け取るまでの総時間。カスタマーサポートでは GPT‑5 が 1 分ほどかかるとしたら問題。
この3つを基に、各ユースケースごとに「品質でソートし、費用・レイテンシが妥当なモデル」をリストアップしました。これは パレート最適 に似ており、他のモデルより安く かつ より良いものは存在しない状態です。価格(x軸)対品質(y軸)のプロットでは、青点がパレートフロンティア上に位置します。
結果
同等以上の品質で最大 10 倍以下 のコストになるモデルを発見しました。友人は保守的な選択肢を採用しつつも 5 倍減で、月あたり 1,000 ドル超の節約に成功しています。
プロセス自動化 – Evalry
ベンチマークと最適モデル決定は思ったより複雑です:
- 新しいユースケースをテストするたびに全工程をやり直す必要がある
- 複数 API を統合し、評価ロジックを書き、エラー処理まで行う
- 5 モデルだけでも数時間かかる場合も
- 新モデルは週単位で登場するため、手動追跡は非現実的
そこで友人と同じ境遇の人々を支援すべく Evalry を作成しました。Evalry は以下を実行します:
- 実際のプロンプトを 300+ モデルで一括テスト
- コスト・速度・品質をコード不要で並列比較
- 結果は数秒で取得可能
- (計画)継続モニタリング:より良いモデルが登場したら通知
LLM API を利用していて、実際のプロンプトで代替モデルを試したことがないなら、多分オーバーペイしています。Evalry で数分間試せば、あなたに合ったより安価なモデルがあるかどうかすぐに分かります。
Discuss: HN | X