
2026/06/09 0:27
MiMo-v2.5-Pro-UltraSpeed:秒間1000トークンの処理速度を実現する1Tモデル
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
元のサマリーは高品質ですが、キーポイントリストに見られるより具体的な指標(リアルタイム生成速度(約 1,200 トークン/秒)、価格対効果のトレードオフなど)を盛り込みつつ流れを保つことでやや改善できます。以下に、それらの詳細を統合しつつ箇条書きリストにならないようにした改良版を示します。
改良版サマリー:
Xiaomi はMiMo-V2.5-Pro-UltraSpeedという画期的な AI モデルを発表しました。このモデルはリアルタイム生成で約 1,200 トークン/秒(標準的な汎用ハードウェア上でも 1,000 よりも高い)の速度を達成し、1 兆パラメータを持つモデルにおける従来の速度記録を更新しました。この革新により、Cerebras や Groq といった高価な専用チップが必要なくなります。コア技術としては、MoE エクスパートにのみ適用されるFP4 量子化によってメモリ圧力を軽減し、並列推論経路(例:Best-of-N/Tree Search)を可能にするために必要な遅延感度が高いタスク(手術分析、高頻度取引における不正検出、複雑なコーディングエージェントなど)に必要な並列推論経路を実現するDFlash デコードを組み合わせています。アクセシビリティについては、モデルは間もなく HuggingFace でオープンソース化されますが、商業 API アクセスには承認された企業およびプロフェッショナル開発者に対してのみ、直ちに 2026 年 6 月 9 日から 6 月 23 日(北京時間)までの 2 週間限定トライアルが用意されています。API のコストは標準的な MiMo-V2.5-Pro バージョンよりも約 3 倍高いものの、生成速度は約 10 倍向上しており、ミッションクリティカルな意思決定ループのための高パフォーマンスツールとなります。
本文
MiMo-V2.5-Pro-UltraSpeed:パラメータ 1 兆級の推論速度「毎秒 1000 トークン」を達成
Xiaomi MiMo チームと TileRT システムチームによる共同開発により、パラメータ数 1 兆規模のモデルにおける生成速度が毎秒 1000 トークンを突破しました。これは世界初の快挙です。
1. 製品概要:速度こそが究極の優位性
- 画期的な成果
- TileRT と共同開発により、パラメータ数 1 兆規模モデルで デコード速度(トークン/秒)を 1000 を超える世界初の実現に成功しました。
- 最大約 1,200 トークン/秒のリアルタイム生成が可能になりました。
- 速度がもたらす進化
- AI ツールが「待たねばならないもの」から「思考の延長線上」へと進化します。
- リアルタイムでの応答、瞬時の反復学習、摩擦のないコラボレーションが可能になります。
2. アクセス方法(期間限定・審査制)
MiMo-V2.5-Pro-UltraSpeed API は、期間限定の特価キャンペーン価格で提供されますが、高速推論リソースの供給制限により申請制となります。
-
料金プラン
- コスト: MiMo-V2.5-Pro の 3 倍。
- 性能: 生成速度は約 10 倍。
- 特徴: 「コストは 3 倍、しかし体験される出力量は 10 倍」です。
- 対象: API 利用のみ。トークンプランは利用できません。
-
申請期間
- 期間: 2026 年 6 月 9 日 〜 6 月 23 日 23:59(中国標準時/UTC+8 または PDT 午後 8 時 59 分)。
- 対象者: ビジネスニーズを有する企業およびプロフェッショナル開発者を最優先。
申請プロセス
- API プラットフォーム: platform.xiaomimimo.com/ultraspeed
- トライアル枠は限定されています(承認を保証しません)。
- ビジネスパートナーシップ
- 詳細な連携をご希望の場合は、
へお問い合わせください。business-mimo@xiaomi.com
- 詳細な連携をご希望の場合は、
- チャット体験(審査通過者向け)
- 試験運用期間中のみ API へのアクセス権が与えられます(2 ヶ月間無料)。
- エントリーポイント: ultraspeed.xiaomimimo.com
ライセンス利用ルール
リソースの公平性を確保するため、以下の制限が適用されます。
- アクセス制限: アカウント単位で、毎日最大 10 回までキューに入れることが可能です。
- セッション制限: 利用時間は 30 分以内。
- アイドルタイムアウト: セッションが 5 分以上アイドル状態になると自動的に終了します。
3. 技術革新:毎秒 1000 トークンの達成原理
単なる速度向上ではなく、パラダイムシフトをもたらすモデル・システム共同設計(CodeSign)の成果です。通常、この程度の速度は特殊ハードウェアに依存しますが、本モデルは一般的な GPU(コンシュマー GPU)のみで実現されています。
3.1 モデル側のイノベーション:FP4 量子化と DFlash
FP4 量子化(選択的適用)
- 背景: パラメータ 1 兆規模では、従来の 8 ビット(FP8/INT8)推論も帯域幅圧力がかかります。
- 手法: FP4(MXFP4) 量子化形式を採用し、メモリアクセスオーバーヘッドを低減しました。
- モデル全体に無批判に適用すると性能劣化が起きるため、MoE(Mixture of Experts)アーキテクチャ上で Expert 部分のみを選択的に FP4 に量子化しています。
- 他のモジュールは元の精度を維持し、モデル能力をオリジナルと同等レベルに保ちます。
DFlash 推測デコーディング
- 課題: 従来の Speculative Decoding はドラフトモデルの質がボトルネックになりがちでした。
- 手法: ブロックレベルのマスキング並列予測を用いたDFlashを導入。
- ドラフトモデルは「自律的ドラフティング」で全ブロックを埋め尽くし、直列制約を排除します。
- Muon 第二順序オプティマイザとモデル自己蒸留を用いてオーバーヘッドを最小化しました。
3.2 TileRT システムの適応
-
超低遅延実行モデル
- 従来の「オペレータ境界」による実行ギャップ(Execution Gaps)を根元的に排除します。
- ペレシストエンジンカーネル: 計算パイプラインを GPU 内に恒常的に保持し、データ移動と計算の極限的な重なりを実現。
- ワープ特化: 通信・データ移動・計算を微粒度で分離し、ヘテロジニアス(異種)な実行ドメインが協働します。
-
共同設計による最適化
- モデル層と TileRT ランタイム層の境界を解体し、相互に整合させています。
- 単一の標準 8-GPU コンシュマーノードのみで 1T モデルから 1000 トークン/秒を実現。
3.3 性能ベンチマーク(受容長さ)
- コーディング: 平均受容長さ 6.30(最大値 7.14)
- 検証ラウンドごとに多くのトークンを効率よく受け入れられ、実効生産性が向上。
- 数学・推論: 平均受容長さ 5.56
- エージェント: 平均受容長さ 4.29
注釈: ドラフトトークン 8 個のうち、コーディングでは 6〜7 個が受け入れられる効率です。
4. リアルタイム応用と社会的意義
毎秒 1000 トークンの速度は、以下のような高時要求シナリオでの意思決定ループへの参加を可能にします。
- 金融: 高频取引の信号生成、瞬時の不正検知と遮断、スマート入札。
- 医療: 生死をかけた手術支援や医療画像解析における「死との競争」への対応。
- 病変分析やリスク予測にかかる時間を劇的に短縮し、外科医に自由度を提供します。
これにより、AI の速度は単なる効率性の指標ではなく、「人類により良く生きることを可能にするテクノロジー」としての価値を発揮します。
5. デモ事例
- スネークゲーム: 構築までわずか 10 秒。
- UI 再現: MacOS インターフェースを 1 分で再現。
6. オープンソース化と展望
HuggingFace にモデル重量(チェックポイント)を公開しました。
- 公開モデル: MiMo-V2.5-Pro-FP4-DFlash
- FP4 量子化された重みと DFlash モデルパラメータを含みます。
- アクセスポイント: huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash
展望: MiMo-V2.5 向けの UltraSpeed サポートはさらに間近です。
MiMo × TileRT —— 極限的なモデル・システム共同設計により、パラメータ数 1 兆のモデルに毎秒 1000 トークンの出力速度を実現しました。