**Launch HN：IonRouter（YC W26）– 高スループット・低コスト推論**

Japanese Translation:

IonAttention Engine は、モデルを高速でスワップし、トラフィックをリアルタイムに適応させることで、単一 GPU 上で高スループットかつ低コストの推論を実現します。Grace Hopper GH200 用にゼロから設計されており、Qwen2.5‑7B で約 3,000 トークン/秒を達成し、1 秒単位の請求とアイドル時間なし（1 百万トークンごとの従量課金）をサポートします。ファインチューニング済みモデル、LoRA アダプタ、または任意のオープンソースモデルなど、カスタムモデルもコールドスタート無しで専用 GPU ストリームにデプロイ可能です。チームはすでに Ion をロボティクス認識、多画面監視、ゲーム資産生成、AI ビデオパイプラインで使用しており、ケーススタディでは 5 つのビジョン‑ランゲージモデルを単一 GPU 上で実行し、2,700 本の動画クリップを 1 秒未満の起動遅延で処理しました。API はコード変更不要で、既存の OpenAI クライアントは Ion を指すだけで高速化できます。価格例としては、ZhiPu AI の 600B+ MoE モデルが約 $1.20（入力）/$3.50（出力）、MoonShot AI（~120 トークン/秒、$0.20 入 / $1.60 出）、MiniMax 1M‑context（~120 トークン/秒、$0.40 入 / $1.50 出）、Qwen3.5‑122B-A10（~120 トークン/秒、$0.20 入 / $1.60 出）、Wan2.2 Text‑to‑Video（8 秒/クリップ、$0.00194/GPU‑sec）および Black Forest Labs の Flux モデルが約 3 秒で画像を生成し、画像あたり約 $0.005 を請求します。ユーザーは GPU 専門知識なしに Ion 上で構築を開始でき、幅広い AI ワークロードに迅速に展開できます。

IonAttention が実現する高速・低コスト推論

IonAttention エンジン
- 単一GPU上で複数モデルをマルチプレクスするカスタムインフェレンススタック。
- ミリ秒単位で切り替え、トラフィックにリアルタイムで適応。
- Grace Hopper 用にゼロから設計。
スループット（token / s）
- Single GH200, Qwen2.5‑7B – トップインフェレンスポバイダー ≈ 3,000
- 詳細は深掘りをご覧ください

カスタムモデル

Ion に任意のモデルを投入:

冷却開始なしの専用GPUストリーム
秒単位課金
ファインチューニング、カスタムLoRA、あるいはオープンソースモデルを弊社フリートでデプロイ

コール予約 → Ion で構築されるチーム
ロボットからリアルタイム映像まで：ロボティクス知覚、多画面監視、ゲーム資産生成、AI動画パイプライン。

ケーススタディ

5 VLM, 1 GPU
単一GPUに5つのビジョン‑ラングエージモデル – 2,700本の映像クリップ、同時利用者数、< 1 s の冷却開始。
ケーススタディを読む

API – コード変更ゼロ

既存の OpenAI クライアントをそのまま Ion に向けるだけ。
任意の言語・フレームワークで、一行の変更で完了。

モデルと価格設定

100万トークン単位で課金。アイドル時のコストは発生しません。

モデル	スループット（tok/s）	$/in	$/out
ZhiPu AI 600B+ MoE	約220	$1.20	$3.50
MoonShot AI	約120	$0.20	$1.60
MiniMax 1M‑context	約120	$0.40	$1.50
Qwen3.5‑122B-A10B	約120	$0.20	$1.60
Cumulus 122B MoE	約120	$0.20	$1.60
Wan2.2 Text‑to‑Video	8 s/clip	$0.00194 / GPU·sec	–
Black Forest Labs Flux	3 s/image	–	$0.005 per image

各モデルを Playground で試せます。

構築の準備はできましたか？
1 分以内に開始できます。GPU の専門知識は不要です。