「Voxtral Transcribe 2」(ボクセトラル・トランスクライブ 2)

Japanese Translation:

Voxtral は次世代の音声認識モデルを 2 つリリースしました：Mini Transcribe V2（バッチ）と Realtime（ライブ）。RealtimはApache 2.0 ライセンスで Hugging Face 上で入手可能で、サブ 200 ms のレイテンシーを設定でき、480 ms まで下げられます。480 ms の遅延で字幕用に 2.4 秒のディレイがあり、WER（単語誤り率）が 1–2％内に収まります。両モデルとも 13 言語（英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語）をサポートします。

Mini Transcribe V2 は FLEURS ベンチマークで約 4 % WER を達成し、ElevenLabs の Scribe v2 より音声処理速度が約 3 倍速く、API 経由で $0.003/min のコストです。Realtime は同等の精度を 4‑B パラメータ のフットプリントで実現し、エッジデプロイが可能です。また、そのストリーミングアーキテクチャは音声が到着した時点で文字起こしを行い、他の API で一般的なチャンクベースの処理を回避します。

企業向け機能には、スピーカー分離（開始/終了タイムスタンプ付き）、単語レベルのタイムスタンプ、最大 100 語・フレーズまでのコンテキストバイアシング（英語最適化）、ノイズ耐性、および 3 時間 までの録音サポートがあります。Mistral Studio のオーディオプレイグラウンドでは、両モデルを最大 10 ファイル（各ファイル ≤1 GB）でテストでき、スピーカー分離、タイムスタンプ粒度、およびコンテキストバイアシングのオプションがあります。

ユースケースは 会議インテリジェンス、音声エージェント/仮想助手、コールセンター自動化、メディア／放送字幕、コンプライアンスポータル など多岐にわたり、すべて GDPR/HIPAA 対応のオンプレミスまたはプライベートクラウドデプロイでサポートされます。Voxtral は、GPT‑4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回る最高の価格対性能を誇る転写 API と主張しています。

同社は開発者にチームへの参加を呼びかけており、世界クラスの音声 AI の構築と継続的な製品拡大・将来機能リリースを示唆しています。

本日、次世代の音声認識モデル「Voxtral Transcribe 2」をリリースいたしました。
このペアは、最高水準の文字起こし品質、スピーカーダイアライゼーション、そして極めて低いレイテンシーを実現します。

主要機能

機能	Voxtral Mini Transcribe V2	Voxtral Realtime
文字起こし品質	業界最先端。FLEURSで約 4 %のWER（単語誤り率）	2.4 s の遅延でMiniと同等；480 ms では <1–2 % WER
レイテンシー	バッチ処理	サブ200 ms 以下に設定可能
対応言語	13種（英・中・ヒンディー・スペイン語・アラビア語・フランス語・ポルトガル語・ロシア語・ドイツ語・日本語・韓国語・イタリア語・オランダ語）	同上
スピーカーダイアライゼーション	スピーカーラベル＋開始/終了時刻	スピーカーラベルのみ
タイムスタンプ	単語レベル	単語レベル
コンテキストバイアシング	最大 100 語／フレーズ（英語、他言語は実験段階）	同上
ノイズ耐性	工場・コールセンター・現場録音まで対応	同上
価格	$0.003 /分	$0.006 /分
デプロイ	APIのみ	API + オープンウェイト（エッジ／プライバシーファースト）

Voxtral Realtime

レイテンシーが重要なアプリ向けに設計
ストリーミング構成で音声到着次第認識開始
サブ200 ms まで遅延設定可能、ボイスファーストアプリを実現
4B パラメータ。エッジデバイスでも効率的に稼働（プライバシーファースト）

パフォーマンス

遅延	WER
2.4 s	約 4 %（Miniと同等）
480 ms	<1–2 %（オフラインレベル）

Voxtral Mini Transcribe V2

エンタープライズ向け機能

スピーカーダイアライゼーション – 正確なスピーカーラベルとタイムスタンプ
コンテキストバイアシング – 名前・専門用語・ドメイン語彙のスペリング誘導
単語レベルタイムスタンプ – 字幕、音声検索、コンテンツ同期に最適

拡張言語サポート

13 言語（英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語）。非英語環境で競合他社を上回る性能です。

ノイズ耐性と長音声

難しい音響環境に対応
1 回のリクエストで最大 3 時間分の録音を処理

価格・利用可能性

モデル	価格	API / オープンウェイト
Voxtral Mini Transcribe V2	$0.003 /分	APIのみ
Voxtral Realtime	$0.006 /分	API + Apache 2.0 ウェイト（Hugging Face）

オーディオプレイグラウンド

「Mistral Studio」で直接 Voxtral Transcribe 2 を試せます。

最大 10 ファイル（1 GB 以下）アップロード：.mp3, .wav, .m4a, .flac, .ogg
ダイアライゼーションの切替、タイムスタンプ粒度の選択、コンテキストバイアシング用語追加

音声アプリケーションへの変革

ドメイン	Voxtral の貢献
会議情報	多言語文字起こし＋ダイアライゼーションで大規模データを低コストで処理
音声エージェント / バーチャルアシスタント	サブ200 ms レイテンシーで応答性の高い対話インターフェース
コンタクトセンター自動化	リアルタイム通話文字起こし、感情分析、CRM 連携
メディア・放送	最小遅延で多言語字幕、適切な固有名詞のバイアシング
コンプライアンス & 文書化	スピーカー属性＋タイムスタンプで監査証跡を提供

両モデルは GDPR・HIPAA 対応。安全なオンプレミスまたはプライベートクラウド設定でデプロイ可能です。

まずは試してみる

Voxtral Mini Transcribe V2 – API $0.003 /分
Voxtral Realtime – API $0.006 /分 + オープンウェイト

詳細は Mistral の音声・文字起こしガイドをご覧ください。

ぜひご参加ください

世界クラスの音声 AI を構築中です。最先端モデルを開発者に届けることに情熱がある方、今すぐ応募してください。

「Voxtral Transcribe 2」(ボクセトラル・トランスクライブ 2)