
2026/01/22 1:15
**LLM(大規模言語モデル)の3つのワークロードとそれらへの対応方法**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
メインメッセージ:
モデル―API中心のLLMサービスの支配力は、DeepSeekやAlibaba QwenといったオープンソースモデルやvLLM・SGLangなどの効率的な推論エンジンが主流になるにつれて薄れつつあります。この変化により、組織はスループット、レイテンシ、およびコストをバランスさせた社内カスタマイズ推論へと移行しています。
主要インサイト:
-
ワークロード分類 – LLMのワークロードは3つに分けられます。
- オフライン(バッチ) – スループットを優先します。おすすめスタック:vLLM + 非同期RPC、チャンク化プリフィル、大きなバッチサイズ、レプリカの自動スケーリング。
- オンライン(インタラクティブ) – 低レイテンシが要求されます。おすすめスタック:SGLang + ホストオーバーヘッド最小化、推測デコーディング(EAGLE‑3)、FP8量子化(H100/H200 GPU)、
を介したエッジプロキシHTTPサーバー。modal.experimental.http_server - セミオンライン(バースティ) – 柔軟なスケーリングが必要です。戦略:マルチテナント集約、GPU自動スケーリング、GPUメモリスナップショットでコールドスタートを数分から数秒に短縮。
-
ワークロード別課題
- オンライン:ホストオーバーヘッド、通信レイテンシ、多ターン状態管理(プレフィックス認識ルーティング)、メモリ帯域幅制限。推測デコーディングは「光速を騙す」効果があります。
- オフライン:vLLM のバッチ内並列化、混合バッチング、およびスケジューリング最適化によりドルあたりのスループットを最大化します。
- セミオンライン:共有インフラストラクチャでピーク対平均負荷比を管理し、コスト削減を図ります。
-
Modal の実装選択 –
で非同期RPC、.spawn/.spawn_map
で低オーバーヘッドなWebサービス、modal.experimental.http_server
で自動スケーリングポリシーを使用します。modal.concurrent -
将来の方向性 – ロッシー最適化(近似KVキャッシュ、レイヤースキップ、プルーニング)とエキゾチックハードウェア(ラックスケールNVLink、TPU、ASIC)への展開。
インパクト:
ユーザーは高速で低コストかつ制御しやすいLLM相互作用を享受でき、組織は外部APIへの依存度を減らし、トークンあたりのコストを下げ、自社のニーズに合わせてレイテンシ/スループットを最適化できます。業界はハードウェア・ソフトウェア・デプロイメント戦略全体で革新を促進するオープンエコシステムへと移行しています。
本文
この事実は自明であると私たちは考えます:すべてのワークロードが同じではありません。
大規模言語モデル(LLM)に関しては、これは決して普遍的なものではありません。ほとんどの組織は、異なるワークロードの多様なコストやエンジニアリング上のトレードオフを、表面的には「1トークンあたりの料金」が平坦に見えるAPIで隠しつつ、LLM アプリケーションを構築しています。DeepSeek や Alibaba Qwen などのオープンソースモデルと vLLM、SGLang といった推論エンジンのおかげで、モデル‑API 主導時代は終わりを迎えつつあります。エンジニアはワークロードをより詳細に理解し、適切に設計・最適化する必要があります。
ワークロードの分類
| カテゴリ | 特徴 | 典型的なユースケース |
|---|---|---|
| オフライン / 分析 | バッチモード、非同期書き込み、スループット重視 | Weaviate Transformation Agent、動画文字起こし・要約 |
| オンライン / インタラクティブ | ストリーミング、同期的な人間との対話、低レイテンシ | Decagon Voice agents、AI IDE のオートコンプリート |
| セミオンライン / バースト型 | バッチのストリーム、他システムとの通信、柔軟なインフラ | Reducto ドキュメント処理、ニュース分析パイプライン |
推奨事項
-
オフライン – アサンクロナス RPC で vLLM を利用し、必要に応じて自動スケールするコンピュートを使う。
大きなバッチを送信、レプリカあたりの GPU 数を制限、余剰容量は追加レプリカへ移行。 -
オンライン – SGLang を使用し、以下の特長を活かす。
- ホストオーバーヘッドが低い
- 推測デコーディング(EAGLE‑3)
- H100/H200 GPU 上で FP8 定量化
- メモリベースの推論にはテンソル並列
-
セミオンライン – どちらかのエンジンを選び、レプリカあたりの負荷が可変でも対応できる高速自動スケーリングを行う。
- GPU リソースは起動時間が短いものを優先し、サーバ状態をスナップショットしてコールドスタートを削減。
オフラインワークロード:ドルあたりのスループット最大化
- バッチ構築 – ライブタスクと保留中タスクからバッチを作成し、プレフィルをチャンクに分割。
- ミックスバッティング – 計算集約型のプレフィルと軽量デコード作業を組み合わせる。
- vLLM 最適化 – アサインスケジューリング、チャンクドプレフィル、大きなバッチサイズ。
- デプロイパターン – Modal の
RPC(async
,.spawn
)を利用し、レプリカあたりの GPU 数を制限;アイドル時には追加レプリカで余剰容量を稼働。.spawn_map
オンラインワークロード:レイテンシ最小化
| チャレンジ | ソリューション |
|---|---|
| ホストオーバーヘッド | SGLang を使用(CPU ブロッキングが低い)。 |
| 通信オーバーヘッド | ルーティングプロキシとアクセラレータ容量をエッジで展開。 |
| マルチターン状態管理 | プレフィックス認識型ルーティング / スティッキーセッション、KV ペアをキャッシュ。 |
| メモリ制約 | 最新 GPU(H100/H200)、テンソル並列、FP8/FP4 定量化、推測デコーディングを活用。 |
推測デコーディング:軽量なスペキュレータがドラフトトークンを生成し、ターゲットモデルがそれを並行して検証します。EAGLE‑3 スペキュレータは高い受理率を提供します。
セミオンラインワークロード:柔軟スケーリング
- ピーク対平均負荷比 – テナント全体で集約し、マルチテナントハードウェアで需要を平滑化。
- コールドスタート – GPU メモリのスナップショットによりサーバ起動時間を数分から数秒へ短縮。
- サーブ前にプログラム状態をダンプし、新レプリカでは再ロード。 |
- 自動スケーリングポリシー – Modal の
をターゲット入力より高めに設定し、バーストを吸収。max_inputs
今後の考慮事項
- ロッシー最適化 – KV キャッシュの近似、レイヤー省略、ロッシー圧縮、ロッシー推測が一般化。
- ハードウェア進化 – ラックスケール NVLink/NVSwitch、TPU スタイルシステム、特定モデル構造に最適化された ASIC。
- ワークロードの転換 – チャット中心から長時間稼働するバックグラウンドエージェント(例:Claude Code)へ移行し、レイテンシは許容範囲内だが高スループットを要求。
次のステップ
LLM エンジニアリングの景観は成熟しており、カスタム推論パイプラインはますます実用的になっています。自社で大規模な推論インフラを構築したい場合はぜひご相談ください。オープンモデルとオープンソースソフトウェアをコミュニティに提供する準備ができています。