
2026/02/05 0:08
「Voxtral Transcribe 2」(ボクセトラル・トランスクライブ 2)
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Voxtral は次世代の音声認識モデルを 2 つリリースしました:Mini Transcribe V2(バッチ)と Realtime(ライブ)。RealtimはApache 2.0 ライセンスで Hugging Face 上で入手可能で、サブ 200 ms のレイテンシーを設定でき、480 ms まで下げられます。480 ms の遅延で字幕用に 2.4 秒のディレイがあり、WER(単語誤り率)が 1–2% 内に収まります。両モデルとも 13 言語(英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語)をサポートします。
Mini Transcribe V2 は FLEURS ベンチマークで約 4 % WER を達成し、ElevenLabs の Scribe v2 より音声処理速度が約 3 倍速く、API 経由で $0.003/min のコストです。Realtime は同等の精度を 4‑B パラメータ のフットプリントで実現し、エッジデプロイが可能です。また、そのストリーミングアーキテクチャは音声が到着した時点で文字起こしを行い、他の API で一般的なチャンクベースの処理を回避します。
企業向け機能には、スピーカー分離(開始/終了タイムスタンプ付き)、単語レベルのタイムスタンプ、最大 100 語・フレーズまでのコンテキストバイアシング(英語最適化)、ノイズ耐性、および 3 時間 までの録音サポートがあります。Mistral Studio のオーディオプレイグラウンドでは、両モデルを最大 10 ファイル(各ファイル ≤1 GB)でテストでき、スピーカー分離、タイムスタンプ粒度、およびコンテキストバイアシングのオプションがあります。
ユースケースは 会議インテリジェンス、音声エージェント/仮想助手、コールセンター自動化、メディア/放送字幕、コンプライアンスポータル など多岐にわたり、すべて GDPR/HIPAA 対応のオンプレミスまたはプライベートクラウドデプロイでサポートされます。Voxtral は、GPT‑4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回る最高の価格対性能を誇る転写 API と主張しています。
同社は開発者にチームへの参加を呼びかけており、世界クラスの音声 AI の構築と継続的な製品拡大・将来機能リリースを示唆しています。
本文
本日、次世代の音声認識モデル「Voxtral Transcribe 2」をリリースいたしました。
このペアは、最高水準の文字起こし品質、スピーカーダイアライゼーション、そして極めて低いレイテンシーを実現します。
主要機能
| 機能 | Voxtral Mini Transcribe V2 | Voxtral Realtime |
|---|---|---|
| 文字起こし品質 | 業界最先端。FLEURSで約 4 %のWER(単語誤り率) | 2.4 s の遅延でMiniと同等;480 ms では <1–2 % WER |
| レイテンシー | バッチ処理 | サブ200 ms 以下に設定可能 |
| 対応言語 | 13種(英・中・ヒンディー・スペイン語・アラビア語・フランス語・ポルトガル語・ロシア語・ドイツ語・日本語・韓国語・イタリア語・オランダ語) | 同上 |
| スピーカーダイアライゼーション | スピーカーラベル+開始/終了時刻 | スピーカーラベルのみ |
| タイムスタンプ | 単語レベル | 単語レベル |
| コンテキストバイアシング | 最大 100 語/フレーズ(英語、他言語は実験段階) | 同上 |
| ノイズ耐性 | 工場・コールセンター・現場録音まで対応 | 同上 |
| 価格 | $0.003 /分 | $0.006 /分 |
| デプロイ | APIのみ | API + オープンウェイト(エッジ/プライバシーファースト) |
Voxtral Realtime
- レイテンシーが重要なアプリ向けに設計
- ストリーミング構成で音声到着次第認識開始
- サブ200 ms まで遅延設定可能、ボイスファーストアプリを実現
- 4B パラメータ。エッジデバイスでも効率的に稼働(プライバシーファースト)
パフォーマンス
| 遅延 | WER |
|---|---|
| 2.4 s | 約 4 %(Miniと同等) |
| 480 ms | <1–2 %(オフラインレベル) |
Voxtral Mini Transcribe V2
エンタープライズ向け機能
- スピーカーダイアライゼーション – 正確なスピーカーラベルとタイムスタンプ
- コンテキストバイアシング – 名前・専門用語・ドメイン語彙のスペリング誘導
- 単語レベルタイムスタンプ – 字幕、音声検索、コンテンツ同期に最適
拡張言語サポート
13 言語(英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語)。非英語環境で競合他社を上回る性能です。
ノイズ耐性と長音声
- 難しい音響環境に対応
- 1 回のリクエストで最大 3 時間分の録音を処理
価格・利用可能性
| モデル | 価格 | API / オープンウェイト |
|---|---|---|
| Voxtral Mini Transcribe V2 | $0.003 /分 | APIのみ |
| Voxtral Realtime | $0.006 /分 | API + Apache 2.0 ウェイト(Hugging Face) |
オーディオプレイグラウンド
「Mistral Studio」で直接 Voxtral Transcribe 2 を試せます。
- 最大 10 ファイル(1 GB 以下)アップロード:.mp3, .wav, .m4a, .flac, .ogg
- ダイアライゼーションの切替、タイムスタンプ粒度の選択、コンテキストバイアシング用語追加
音声アプリケーションへの変革
| ドメイン | Voxtral の貢献 |
|---|---|
| 会議情報 | 多言語文字起こし+ダイアライゼーションで大規模データを低コストで処理 |
| 音声エージェント / バーチャルアシスタント | サブ200 ms レイテンシーで応答性の高い対話インターフェース |
| コンタクトセンター自動化 | リアルタイム通話文字起こし、感情分析、CRM 連携 |
| メディア・放送 | 最小遅延で多言語字幕、適切な固有名詞のバイアシング |
| コンプライアンス & 文書化 | スピーカー属性+タイムスタンプで監査証跡を提供 |
両モデルは GDPR・HIPAA 対応。安全なオンプレミスまたはプライベートクラウド設定でデプロイ可能です。
まずは試してみる
- Voxtral Mini Transcribe V2 – API $0.003 /分
- Voxtral Realtime – API $0.006 /分 + オープンウェイト
詳細は Mistral の音声・文字起こしガイドをご覧ください。
ぜひご参加ください
世界クラスの音声 AI を構築中です。最先端モデルを開発者に届けることに情熱がある方、今すぐ応募してください。