
2026/04/28 20:56
VibeVoice:オープンソースの最先端音声 AI
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
まとめ:
VibeVoice は、ディープフェイクの誤用に関する倫理的懸念および基盤モデル(Qwen2.5 1.5b)由来の内在的バイアスのため、商用利用ではなく研究目的のために設計されたオープンソーススイートである。その核心的な革新は、7.5 Hz の低いフレームレートで動作する連続音声トOKENAライザの実装であり、これは高忠実度とパフォーマンスのバランスを効率的に実現し、単一パスで最大 60 分の音声入力に対応して一貫した話者追跡を可能にする。本システムは、 spontaneous な歌唱の生成、4 つの異なる話者を関与する異言語間会話、および英語、中国語、50 以上の他の言語(ファインチューニングコードが利用可能)への対応を含む広範なタスクをサポートする。当初 2025 年 8 月にリリースされた TTS コンポーネントは、責任ある AI の懸念により 2025 年 9 月に一時的に削除されたが、ASR コンポーネントが 2026 年 3 月 6 日に公式に Hugging Face Transformers ライブラリに統合された後、再統合された。フレームワークはまた vLLM インFERランスをサポートし、公開されたテクニックレポートも提供しているが、誤用のリスクを緩和するため、研究アプリケーションのみに厳格に制限されている。
本文
VibeVoice プロジェクトアップデート
📰 ニュース
-
2026 年 3 月 6 日: 🚀 VibeVoice ASR が Hugging Face Transformers リリースの一部となりました! これにより、Hugging Face Transformers ライブラリを介して当社の音声認識モデルを直接使用し、プロジェクトへのシームレスな統合が可能です。
-
2026 年 1 月 21 日: 📣 VibeVoice-ASR をオープンソース化しました。 本モデルは、ユーザーカスタマイズされたコンテキストに対応した構造화된なトランスクリプト(話者名「Who」、タイムスタンプ「When」、内容「What」を含む)を生成するよう設計された、60 分間の長編音声を一貫して処理できる統合型音声認識モデルです。
- プレイグラウンドでお試しください。
- 多言語対応: VibeVoice-ASR はネイティブに多言語対応しており、50 以上の言語をサポートしています。詳細についてはサポート言語をご確認ください。
- ファインチューニングコードの提供: VibeVoice-ASR のファインチューニングコードが利用可能です!
- vLLM 推論対応: vLLM による推論がサポートされ、高速な推論が可能です。「vllm-asr」で詳細をご覧ください。
- 技術レポート公開: VibeVoice-ASR 技術レポートが利用可能です。
-
2025 年 12 月 16 日: 📣 VibeVoice‑Realtime‑0.5B に実験的な話者音声を追加しました。 デバッグおよび探索目的として、9 の言語(DE, FR, IT, JP, KR, NL, PL, PT, ES)に対応した多言語音声と、11 種類の異なる英語スタイルの声を追加しています。今後、より多くの話者タイプを追加していく予定です。
-
2025 年 12 月 3 日: 📣 VibeVoice‑Realtime‑0.5B をオープンソース化しました。 ストリーミング形式でのテキスト入力と堅牢な長編音声生成をサポートするリアルタイムテキストトゥスピーチ(TTS)モデルです。Colab でお試しください。
-
2025 年 9 月 5 日: 公開後に見られる不整合な利用状況が、Microsoft の責任ある AI 活用に関する指針に違反することから、VibeVoice-TTS コードをこのリポジトリから削除しました。
-
2025 年 8 月 25 日: 📣 VibeVoice-TTS をオープンソース化しました。 これは、最大 90 分間の音声合成と最多 4 人の異なる話者をサポートする長編マルチスピーカーテキストトゥスピーチモデルです。ICLR 2026 で口頭発表(Oral)として受け入れられました!🔥
概要
VibeVoice は、テキストトゥスピーチ(TTS)モデルと自動音声認識(ASR)モデルの両方を含む、オープンソースの最先端音声 AI モデルファミリーです。
VibeVoice の中心的な革新点は、超高解像度フレームレート(7.5 Hz)で動作する連続的なスークライザー(Acoustic と Semantic)の使用にあります。これらのトカライザーは、音響の忠実さを効率的に維持しつつ、長シークエンスの処理における計算効率を大幅に向上させます。VibeVoice は次トークン拡散フレームワークを採用しており、言語モデル(LLM)を使用してテキストコンテキストおよび対話フローを理解し、拡散ヘッドを使用して高忠実度な音響詳細を生成します。
詳細情報、デモ、および例については、プロジェクトページをご覧ください。
モデル一覧
1. 📖 VibeVoice-ASR: 長編音声認識
VibeVoice-ASR は、60 分間の長編音声を単一のパスで処理することを目的とした統合型音声認識モデルです。カスタマイズされたホットワードに対応し、「Who(話者)」「When(タイムスタンプ)」「What(内容)」を含む構造化トランスクリプトを生成します。
- 🕒 60 分単一パス処理: 従来の ASR モデルが音声データを短いチャンクに分割して処理する場合、文脈の一部が失われることがありますが、VibeVoice ASR は 64K トークンの長さで最大 60 分間の連続音声入力を受け付けます。これにより、1 時間全体にわたって話者の追跡と语义的一貫性が保証されます。
- 👤 カスタマイズ可能なホットワード: 利用者は特定の人名、専門用語、または背景情報などのカスタマイズされたホットワードを提供することができ、認識プロセスをガイドし、ドメイン固有のコンテンツにおける精度を大幅に向上させます。
- 📝 リッチトランスクリプト(Who, When, What): モデルは ASR、ディアライゼーション(話者分離)、タイムスタンプ生成を同時に実行し、「誰が」「いつ」「何を言ったか」を示す構造化出力を生成します。
リソース: 📖 ドキュメント | 🤗 Hugging Face | 🎮 プレイグラウンド | 🛠️ ファインチューニング | 📊 ペーパー
[media_small.mp4]
2. 🎙️ VibeVoice-TTS: 長編マルチスピーカー TTS
最適な用途: 長編会話音声、ポッドキャスト、マルチスピーカー対話。
- ⏱️ 90 分間の長編生成: 単一のパスで最大 90 分間の会話形式または単一話者の音声合成が可能で、話者の一貫性と语义的一貫性を維持します。
- 👥 マルチスピーカー対応: 1 つの対話内で最大 4 人の異なる話者をサポートし、自然なターンテイクと長編対話全体を通じた話者の一貫性を実現します。
- 🎭 表現豊かな発声: 会話ダイナミクスや感情的ニュアンスを捉えた、表現豊かで自然な発声を生成します。
- 🌐 マルチリンガル対応: 英語、中国語などの多言語をサポートしています。
リソース: 📖 ドキュメント | 🤗 Hugging Face | 📊 ペーパー
[media_ES_._3.mp4] | [media_default.mp4] | [media_1p_EN2CH.mp4] | [media_2p_see_u_again.mp4] | [media_4p_climate_45min.mp4]
3. ⚡ VibeVoice-Streaming: リアルタイムストリーミング TTS
VibeVoice-Realtime は、ストリーミング形式でのテキスト入力と堅牢な長編音声生成をサポートする軽量リアルタイムテキストトゥスピーチモデルです。
- パラメータサイズ: 0.5B(デプロイメントに最適化)
- リアルタイム TTS: ~300ms の初期可聴遅延
- ストリーミング形式でのテキスト入力
- 堅牢な長編音声生成: ~10 分
リソース: 📖 ドキュメント | 🤗 Hugging Face | 🚀 Colab
[media_VibeVoice_Realtime.mp4]
コントリビュート詳細
詳細なコントリビュートガイドラインについては、CONTRIBUTING.md をご覧ください。
⚠️ リスクと制限事項
多様な技術による最適化が行われていますが、予期せぬ出力やバイアスを含むもの、または不正確なものが生じる可能性があります。VibeVoice は、そのベースモデル(今回のリリースでは Qwen2.5 1.5b)が生成するバイアス、エラー、または欠如を継承します。
- ディープフェイクおよび誤情報創出の可能性: 高品質な合成音声は、なりすましや詐欺、誤情報の拡散のために説得力のある偽のオーディオコンテンツを作成するために悪用される可能性があります。利用者は、トランスクリプトの信頼性を確保し、内容の正確性を確認し、生成されたコンテンツを誤解を招く方法で使用することを避ける必要があります。
- 法的適合性: 利用者は、生成されたコンテンツを使用し、モデルをデプロイする際は、関連する管轄域での全ての適用法および規制に完全に準拠した法的かつ公正な方法で行うことが期待されます。AI 生成コンテンツを共有する際には、AI の使用を開示することがベストプラクティスです。
免責事項: さらなるテストと開発なしに VibeVoice を商業的または実世界のアプリケーションで使用することはお勧めしません。本モデルは研究および開発目的専用のものです。責任を持ってご使用ください。