「Voxtral Transcribe 2」(ボクセトラル・トランスクライブ 2)

2026/02/05 0:08

「Voxtral Transcribe 2」(ボクセトラル・トランスクライブ 2)

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Voxtral は次世代の音声認識モデルを 2 つリリースしました:Mini Transcribe V2(バッチ)と Realtime(ライブ)。RealtimはApache 2.0 ライセンスで Hugging Face 上で入手可能で、サブ 200 ms のレイテンシーを設定でき、480 ms まで下げられます。480 ms の遅延で字幕用に 2.4 秒のディレイがあり、WER(単語誤り率)が 1–2% 内に収まります。両モデルとも 13 言語(英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語)をサポートします。

Mini Transcribe V2 は FLEURS ベンチマークで約 4 % WER を達成し、ElevenLabs の Scribe v2 より音声処理速度が約 3 倍速く、API 経由で $0.003/min のコストです。Realtime は同等の精度を 4‑B パラメータ のフットプリントで実現し、エッジデプロイが可能です。また、そのストリーミングアーキテクチャは音声が到着した時点で文字起こしを行い、他の API で一般的なチャンクベースの処理を回避します。

企業向け機能には、スピーカー分離(開始/終了タイムスタンプ付き)、単語レベルのタイムスタンプ、最大 100 語・フレーズまでのコンテキストバイアシング(英語最適化)、ノイズ耐性、および 3 時間 までの録音サポートがあります。Mistral Studio のオーディオプレイグラウンドでは、両モデルを最大 10 ファイル(各ファイル ≤1 GB)でテストでき、スピーカー分離、タイムスタンプ粒度、およびコンテキストバイアシングのオプションがあります。

ユースケースは 会議インテリジェンス、音声エージェント/仮想助手、コールセンター自動化、メディア/放送字幕、コンプライアンスポータル など多岐にわたり、すべて GDPR/HIPAA 対応のオンプレミスまたはプライベートクラウドデプロイでサポートされます。Voxtral は、GPT‑4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回る最高の価格対性能を誇る転写 API と主張しています。

同社は開発者にチームへの参加を呼びかけており、世界クラスの音声 AI の構築と継続的な製品拡大・将来機能リリースを示唆しています。

本文

本日、次世代の音声認識モデル「Voxtral Transcribe 2」をリリースいたしました。
このペアは、最高水準の文字起こし品質、スピーカーダイアライゼーション、そして極めて低いレイテンシーを実現します。


主要機能

機能Voxtral Mini Transcribe V2Voxtral Realtime
文字起こし品質業界最先端。FLEURSで約 4 %のWER(単語誤り率)2.4 s の遅延でMiniと同等;480 ms では <1–2 % WER
レイテンシーバッチ処理サブ200 ms 以下に設定可能
対応言語13種(英・中・ヒンディー・スペイン語・アラビア語・フランス語・ポルトガル語・ロシア語・ドイツ語・日本語・韓国語・イタリア語・オランダ語)同上
スピーカーダイアライゼーションスピーカーラベル+開始/終了時刻スピーカーラベルのみ
タイムスタンプ単語レベル単語レベル
コンテキストバイアシング最大 100 語/フレーズ(英語、他言語は実験段階)同上
ノイズ耐性工場・コールセンター・現場録音まで対応同上
価格$0.003 /分$0.006 /分
デプロイAPIのみAPI + オープンウェイト(エッジ/プライバシーファースト)

Voxtral Realtime

  • レイテンシーが重要なアプリ向けに設計
  • ストリーミング構成で音声到着次第認識開始
  • サブ200 ms まで遅延設定可能、ボイスファーストアプリを実現
  • 4B パラメータ。エッジデバイスでも効率的に稼働(プライバシーファースト)

パフォーマンス

遅延WER
2.4 s約 4 %(Miniと同等)
480 ms<1–2 %(オフラインレベル)

Voxtral Mini Transcribe V2

エンタープライズ向け機能

  • スピーカーダイアライゼーション – 正確なスピーカーラベルとタイムスタンプ
  • コンテキストバイアシング – 名前・専門用語・ドメイン語彙のスペリング誘導
  • 単語レベルタイムスタンプ – 字幕、音声検索、コンテンツ同期に最適

拡張言語サポート

13 言語(英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語)。非英語環境で競合他社を上回る性能です。

ノイズ耐性と長音声

  • 難しい音響環境に対応
  • 1 回のリクエストで最大 3 時間分の録音を処理

価格・利用可能性

モデル価格API / オープンウェイト
Voxtral Mini Transcribe V2$0.003 /分APIのみ
Voxtral Realtime$0.006 /分API + Apache 2.0 ウェイト(Hugging Face)

オーディオプレイグラウンド

「Mistral Studio」で直接 Voxtral Transcribe 2 を試せます。

  • 最大 10 ファイル(1 GB 以下)アップロード:.mp3, .wav, .m4a, .flac, .ogg
  • ダイアライゼーションの切替、タイムスタンプ粒度の選択、コンテキストバイアシング用語追加

音声アプリケーションへの変革

ドメインVoxtral の貢献
会議情報多言語文字起こし+ダイアライゼーションで大規模データを低コストで処理
音声エージェント / バーチャルアシスタントサブ200 ms レイテンシーで応答性の高い対話インターフェース
コンタクトセンター自動化リアルタイム通話文字起こし、感情分析、CRM 連携
メディア・放送最小遅延で多言語字幕、適切な固有名詞のバイアシング
コンプライアンス & 文書化スピーカー属性+タイムスタンプで監査証跡を提供

両モデルは GDPR・HIPAA 対応。安全なオンプレミスまたはプライベートクラウド設定でデプロイ可能です。


まずは試してみる

  • Voxtral Mini Transcribe V2 – API $0.003 /分
  • Voxtral Realtime – API $0.006 /分 + オープンウェイト

詳細は Mistral の音声・文字起こしガイドをご覧ください。


ぜひご参加ください

世界クラスの音声 AI を構築中です。最先端モデルを開発者に届けることに情熱がある方、今すぐ応募してください。

同じ日のほかのニュース

一覧に戻る →

2026/02/01 21:43

**Claude Code** クォータが尽きたらローカルモデルに接続します。

## Japanese Translation: **概要:** より安価な Anthropic Claude プランを利用しているユーザーは、コーディング中に日次または週次のクォータ制限に直面することが多いです。この記事では、Claude Code を Anthropic の API ではなくローカルのオープンソースモデルに接続することでこれらの制約を回避する方法について説明しています。実際的な2つの手法を紹介します: 1. **LM Studio v0.4.1** を使用する方法 ― モデルは検索インターフェイス経由でインストール(推奨コンテキストサイズ > 25k トークン)、`lms server start --port 1234` でサーバーを起動し、環境変数 `export ANTHROPIC_BASE_URL=http://localhost:1234` と `export ANTHROPIC_AUTH_TOKEN=lmstudioc` を設定します。次に Claude Code を `claude --model openai/gpt‑oss‑20b` で起動し、Claude 内で `/model` コマンドを使ってモデルの確認または切替えを行います。 2. **Llama.CPP** を直接使用する方法 ― これにより Claude Code はローカルエンドポイントを指すことも可能です。 推奨されるモデルとしては、Z.AI の **GLM‑4.7‑Flash** と **Qwen3‑Coder‑Next** が挙げられています。また、小型で量子化されたバージョンを使用するとディスク容量と GPU メモリを節約できますが、その代償として品質や速度が若干低下する可能性があります。ローカル OSS モデルは遅く、コード生成の質が低下することもありますが、クォータ制限やコストが問題になる際に有効なバックアップ手段となります。最後に、読者にはこの設定を試し、さまざまなモデルをテストして経験を共有するよう奨励しています。

2026/02/05 3:34

インフラ向け Claude コード

## Japanese Translation: > Fluid は、AI エージェントが本番インフラストラクチャのサンドボックス化されたクローンを安全に探索し、その後、自動的に実際のサーバー用の Infrastructure‑as‑Code(IaC)―たとえば Ansible プレイブック ― を生成できる軽量ターミナルエージェントです。 > LLM 単体ではライブシステムの挙動を予測することが難しいため、サンドボックスは実際的なコンテキストを提供します。コマンドはホストと同一 OS、パッケージ、ツールを鏡映した隔離された VM またはクラスター上で実行されます。 > Fluid には安全性が組み込まれています:本番環境への直接 SSH は許可せず、一時的な証明書のみを使用し、すべてのサンドボックスコマンドは監査可能に完全ログ記録され、高リソースまたはインターネット依存の操作は人間の承認が必要です。 > インストールはワンライナー(`curl -fsSL https://fluid.sh/install.sh | bash`)で、ホスト環境を自動的に検出します。 > 提供された例では、AI エージェントがサンドボックス(ID `SBX-demo1234`、IP `192.168.122.50`)に Apache をインストールし、curl で確認した後、`httpd‑setup` プレイブックを生成します。このプレイブックは 4 件のタスク(apt キャッシュ更新、Apache インストール、カスタム `index.html` 作成、サービス起動/有効化)から構成され、任意の Ubuntu サーバーで実行して同じ設定を再現できます。 > コントロールされた監査可能なワークフローをチームに提供することで、Fluid はデプロイリスクを低減し、コンプライアンスを向上させ、AI 主導のインフラ変更を効率化します。

2026/02/05 6:08

「世界ファクトブックに光を当てつつ、さよならの言葉を添えて」

## Japanese Translation: CIAのWorld Factbookは公式に廃止(“サンセット”)されました。1962年に機密扱いだった*National Basic Intelligence Factbook*として始まり、1971年に一般公開され、1981年前後で*World Factbook*と改名されました。1997年にはCIA.gov上でデジタル化され、毎年数百万の訪問者がデータテーブルや地図、ジャーナリズム・研究・教育・旅行計画に使用するCIA職員が寄稿した著作権フリー写真を利用しました。サイトでは読者が好む地理的名称や世界の実体を追加申請できる機能もありました。新しい版や更新は今後予定されていないため、ユーザーは同等の国別統計と画像を得るために他の情報源へ移行する必要があります。この結果、商業データベースの利用が増加し、新たなオープンアクセス代替案の創出につながる可能性があります。 この改訂版ではすべての重要ポイントを保持し、将来への推測に関する根拠のない推論を除外しつつ、主要メッセージを明確かつ簡潔に保っています。

「Voxtral Transcribe 2」(ボクセトラル・トランスクライブ 2) | そっか~ニュース