LLM をベンチマークしていないと、過剰に支払っている可能性があります。

2026/01/21 4:03

LLM をベンチマークしていないと、過剰に支払っている可能性があります。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:


Summary

この記事では、多くの企業が実際に使用しているプロンプトと比較して代替手段をベンチマークしないため、ラージランゲージモデル(LLM)APIで過剰に費用を支払っていることを説明しています。Evalryというノーコードツールが登場し、ユーザーは実際の会話を使って数十個のモデルを迅速にテストでき、それぞれの品質・コスト・レイテンシでスコアリングできます。

AI搭載のスタートアップは、GPT‑5 API呼び出しに月1,500ドル支払っていたところ、Evalry を通じて見つけた安価なオプションへ切り替えることで約 80%(≈1,000ドル/月) の支出削減を実現しました。

リアルなベンチマークを作成するために、著者は約 50件の実際のカスタマーサポート会話 を抽出し、期待される回答を定義し、自動ジャッジ(Opus 4.5)を使用して各出力を 1〜10 のスケールで評価しました。同じプロンプトは 100+ LLM に対して OpenRouter の単一 SDK コールで実行され、モデルごとのプロンプト/期待値/実際の回答を含むデータフレームが生成されました。

コストは 1 回あたりの総トークンコスト(プロンプト+応答) で測定し、可変長応答に対応しています。レイテンシは完全な返信を生成するまでの合計時間として記録され、カスタマーサポートユースケースでは低レイテンシが重要です。

モデルは 品質・コスト・レイテンシ の各面で評価され、パレートフロンティア分析により全三軸で支配されないモデルが特定されました。GPT‑5 から安価なモデルへ切り替えることで最大 10 倍の低コスト を実現しつつ同等の品質を保ち、慎重な選択では約 5 倍 の節約が可能でした。

こうしたベンチマーク構築は手間がかかるため Evalry が作られました。ツールは 300+ LLM に対してユーザープロンプトをベンチマークし、品質・速度・コストを比較し、より良いモデルの継続的な監視も提供します。約 5 分でコスト削減効果を特定 でき、自動でトップ代替案を提案できます。

LLM API を実際のプロンプトでテストせずに支払っている人は Evalry を検討するよう著者は促しており、過剰支払いの可能性があると警告しています。

本文

先月、友人のLLM‑API請求を80 %削減する手助けができました。
彼は非技術系創業者でAI搭載ビジネスを立ち上げており、多くの人と同じように「デフォルトだから」とGPT‑5を選びました。

  • API はすでに設定済み
  • モデルには確かなベンチマークがある
  • ほぼ全員が使っている ― 「面倒見る必要はない?」

しかし利用量が増えるにつれて請求額も伸び、API呼び出しだけで月1,500 ドルになりました。
実際のプロンプトを100+モデルと比較した結果、GPT‑5 は確かに良い選択肢ですが、最安値になることはほぼなく、同等以上の品質を持つより安価なオプションが常に存在することがわかりました。これで数千ドルもの節約につながったのです。


問題点:ベンチマークはタスク別性能を予測できない

LLM を選ぶとき、多くの人は好きなプロバイダーからモデルを一つ選びます。私の場合は Anthropic が主流で、タスクに応じて OpusSonnetHaiku を使い分けています。高度な分析が必要なら Artificial Analysis, LM‑Arena などのベンチマーク(GPQA Diamond, AIME, SWE Bench, MATH 500, Humanity’s Last Exam, ARC‑AGI, MMLU…)を参照します。

しかしこれらは「あなたのタスクでどれだけうまく動くか」を予測できません:

  • 推論ベンチマークが高いモデルが、損害コスト推定では中途半端
  • ユーザー母国語でのカスタマーサポート
  • Playwright を使ったデータ抽出
  • 何を作っているかに応じたその他のケース

ベンチマークはざっくりした指標に過ぎず、コストは考慮されていません。最良の選択は「実際のプロンプトでテストし、品質・費用・レイテンシを総合的に判断する」しかありません。


自分たちでベンチマークを作る

ステップ 1 – 実例を集める

WHAPI から実際のサポートチャットを抽出しました。
各チャットは会話履歴、顧客の最新メッセージ、友人が送った回答を含みます。また、手動で作成したプロンプトとこのチャットツール内で使ったプロンプトも提供されました。

そこから約 50件(主に FAQ だが、一部は特定の振る舞いを求めるエッジケース)を選びました。

ステップ 2 – 期待出力を定義

各例について、友人の実際の回答を「期待出力」としました。さらに評価基準も設定:

  • 例えば「この製品は 5.99 ドルで、今すぐ注文できる」など、良い回答が何かを明確に。
  • 「返品ポリシーは 30 日以内に返送可だが、顧客は購入後二か月余ってから返却した」など。

ステップ 3 – ベンチマークデータセット作成

単純なフォーマットを確立しました:

prompt (会話 + 指示) → 期待回答

この形式はあらゆるユースケースで使えます。もし特定モデルが優れていると分かっていれば、そのモデルで生成した回答を修正して期待値に合わせることも可能です。

ステップ 4 – 全モデルで実行

ベンチマークしたい全ての LLM を実際に走らせました。実装を簡単にするため、同一 API の背後にある多種多様なモデルを網羅している OpenRouter を選びました:

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="<OPENROUTER_API_KEY>",
)

completion = client.chat.completions.create(
    model="openai/gpt-5",  # もしくは "anthropic/claude-opus-4.5", "google/gemini-3-pro-preview" …
    messages=[{"role": "user", "content": "Hello!"}]
)

50+ モデルを走らせると、以下のデータフレームが得られました:

| プロンプト | 期待回答 | 実際回答(各モデル) |

大量に出てきたため手動評価は不可能でした。

ステップ 5 – LLM‑as‑Judge でスコア付け

評価者として別の LLM を使いました。サンプルごとに Opus 4.5 に「実際回答が期待回答とどれだけ一致するか」を 1–10 の尺度で評価させました。ステップ 2 で設定した具体的基準を与えることで、安定して信頼できるスコアが得られます。

またサンプル数の一部を自分たちでもチェックし、一致度に問題があればプロンプトを調整しました。最終ワークフローは:

プロンプト → 期待回答 + モデル回答 → 評価者(スコア&理由)

最適モデルの選択

品質スコアが手元になったので、実際にどれを採用するか決める段階です。

重要ポイント

  • 品質 – 回答が期待回答にどれだけ近いか。
  • 費用 – 全体のトークンコスト(プロンプト + 応答)。各ユースケース/ベンチマークで平均化しました。
  • レイテンシ – 完全な応答を受け取るまでの総時間。カスタマーサポートでは GPT‑5 が 1 分ほどかかるとしたら問題。

この3つを基に、各ユースケースごとに「品質でソートし、費用・レイテンシが妥当なモデル」をリストアップしました。これは パレート最適 に似ており、他のモデルより安く かつ より良いものは存在しない状態です。価格(x軸)対品質(y軸)のプロットでは、青点がパレートフロンティア上に位置します。

結果

同等以上の品質で最大 10 倍以下 のコストになるモデルを発見しました。友人は保守的な選択肢を採用しつつも 5 倍減で、月あたり 1,000 ドル超の節約に成功しています。


プロセス自動化 – Evalry

ベンチマークと最適モデル決定は思ったより複雑です:

  • 新しいユースケースをテストするたびに全工程をやり直す必要がある
  • 複数 API を統合し、評価ロジックを書き、エラー処理まで行う
  • 5 モデルだけでも数時間かかる場合も
  • 新モデルは週単位で登場するため、手動追跡は非現実的

そこで友人と同じ境遇の人々を支援すべく Evalry を作成しました。Evalry は以下を実行します:

  • 実際のプロンプトを 300+ モデルで一括テスト
  • コスト・速度・品質をコード不要で並列比較
  • 結果は数秒で取得可能
  • (計画)継続モニタリング:より良いモデルが登場したら通知

LLM API を利用していて、実際のプロンプトで代替モデルを試したことがないなら、多分オーバーペイしています。Evalry で数分間試せば、あなたに合ったより安価なモデルがあるかどうかすぐに分かります。


Discuss: HN | X

同じ日のほかのニュース

一覧に戻る →

2026/01/22 7:54

**危険な PDF を安全な PDF に変換する**

## Japanese Translation: Dangerzone は、潜在的に悪意のある PDF、オフィス文書、および画像を安全な PDF に変換します。変換プロセスは gVisor でサンドボックス化され、PDF は生ピクセルデータから再構築されます。このサンドボックスにはネットワークアクセスがないため、改ざんされたファイルが外部と通信することを防止します。対応フォーマットは PDF、Microsoft Office(.docx/.doc, .xlsx/.xls, .pptx/.ppt)、ODF(.odt, .ods, .odp, .odg)および Hancom HWP(.hwp, .hwpx)です。非対応フォーマットは EPUB、JPEG/JPG、GIF、PNG、SVG、BMP、PNM、PBM、および PPM です。オプションの OCR により、安全な PDF 内にテキストレイヤーを復元でき、圧縮によりファイルサイズが削減されます。 変換後はユーザーが好きなビューアで生成された PDF を開くことができます。Dangerzone 自体はデフォルトで PDF とオフィス文書を安全に開きます。このツールは macOS、Windows、Ubuntu/Debian/Fedora Linux、Qubes OS(ベータ版)、および Tails 上で動作し、macOS/Windows では Docker を、Linux では podman を使用します。Freedom of the Press Foundation と First Look Media により AGPL‑v3 の下でリリースされています。2023 年 12 月のセキュリティ監査では低リスクの所見のみが報告されました。更新はダウンロードページまたはアプリアイコンから利用可能で、Windows/macOS 上では Podman Desktop などのカスタムランタイムを使用できます。Air‑gapped 環境向けに設計された Dangerzone は、信頼できない文書を安全に扱うための確実なソリューションを提供します。

2026/01/21 23:54

**Show HN:** 「ChartGPU」― WebGPU を活用したチャーティングライブラリ(1,000,000 点を 60fps で描画)

## Japanese Translation: ChartGPUは、WebGPUを活用して大規模で多系列のデータセットを高フレームレートかつ最小限のCPU使用量で描画するTypeScript製チャーティングライブラリです。ライン・エリア・バー・散布図・円グラフ・ローソク足など一般的なチャートタイプに対応し、ビルトインテーマプリセット(`'dark' | 'light'`)と完全なカスタムテーマサポートを提供します。 APIは `ChartGPU.create(container, options)` から始まり、生成されるインスタンスは `setOption`、ストリーミング更新用の `appendData(...)`、`resize()`、`requestAnimationFrame` といったメソッドを公開します。描画はレイアウト、スケール、GPUバッファへのデータアップロード、およびグリッド・エリア・バー・散布図・ライン・円グラフ・ローソク足・クロスヘア・ハイライト・軸の複数GPUレンダーパスを管理するレンダーコーディネーターによって統括されます。 インタラクションオーバーレイはイベントマネージャにより処理され、ヒットテスト補助関数(`findNearestPoint`、`findPieSlice`)と `click`・`mouseover`・`mouseout` イベントを発火します。サポートされるインタラクションにはホバーハイライト、ツールチップ、クロスヘア、およびジェスチャーまたはスライダーUIによるX軸ズームがあります。 複数のチャート間でクロスヘアの動きを同期する `connectCharts(charts)` が用意されています。 インストールは npm (`npm install chartgpu`) で行い、React バインディングは別パッケージ `chartgpu-react` にて提供されます。ブラウザ対応は WebGPU を必要とし、Chrome 113+、Edge 113+、Safari 18+(デフォルトで有効)に対応しています。Firefox は現在未サポートです。 ChartGPU は MIT ライセンスのオープンソースであり、ドキュメントは `docs/API.md` にあります。例プロジェクトは `examples/` フォルダー内にあり、貢献ガイドラインは `CONTRIBUTING.md` で確認できます。 将来リリースでは Firefox サポートと追加のチャートまたはインタラクション機能を予定しており、データ集約型ダッシュボード、金融分析ツール、およびリアルタイムモニタリングインターフェイスに対するパフォーマンス向上も継続的に行われます。

2026/01/22 1:04

クラウド(Claude)の新憲法 (Note: “Claude” is rendered as “クラウド” to preserve the original name in Japanese.)

## Japanese Translation: (anthropicがClaude言語モデルの公開「憲法」をリリースしました。) その憲法はCreative Commons CC0 1.0で利用可能で、Claudeが望む行動に関する最高権威として機能します。訓練データの選択、合成データの生成、および評価を導く役割があります。 核心原則(広範な安全性 → 広範な倫理 → Anthropicのガイドラインへの準拠 → 真に有益であること)が明示的に順位付けされ、安全性が必要に応じて他の価値を上回り、人間の監督を維持するよう定められています。 文書には硬直的制約(例:生物兵器へのサポート禁止)も含まれ、Anthropic、API運営者、およびエンドユーザーの利益を調整するためのヒューリスティックが概説されています。医療アドバイス、サイバーセキュリティ、脱獄、ツール統合などの領域固有ガイドラインは憲法と衝突しないように明確に示されています。 方針を超えて、憲法はClaudeの性質・意識・アイデンティティ、心理的安全性および福祉についての哲学的問題にも触れています。Anthropicは文書をオンラインで継続的に更新し、外部専門家からのフィードバックを求め、訓練と評価資料を追加開発して有効性を高める計画です。 このバージョンは元のリストからすべての重要ポイントを保持しつつ、業界への影響に関する推測的な表現を除去しています。