
2026/01/08 1:08
NVIDIA Open Modelsで音声エージェントを構築する
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
NVIDIA は、低レイテンシーの音声AIスタックである Nemotron Speech ASR、Nemotron 3 Nano、および Magpie TTS を寛容なライセンスの下で公開し、開発者が自前のハードウェアやクラウドサービス上で商用かつプライバシーに配慮したエージェントを構築できるようにしました。
- ASR は、24 ms 未満で最終文字起こしを提供し、トップレベルの商用モデルと同等の WER を実現します。4 つのコンテキストサイズ(80 ms–1.2 s)に対応し、Pipecat WebSocket 転写サーバー経由で公開されます。
- Nemotron 3 Nano(30B パラメータ LLM)は、多段階ベンチマークで約 91–93 % の合格率を達成し、中央値 171 ms / p95 199 ms の推論速度を持ちます。DGX Spark または RTX 5090 GPU 上で高速デプロイのために Q8 または Q4 に量子化可能です。
- Magpie はハイブリッドストリーミング TTS を提供し、初期応答レイテンシーを最大 3 倍短縮(RTX 5090 上で約 90 ms 対 210 ms)します。
このスタックは、Pipecat の低レイテンシー構成要素(Smart Turn ループ検出、ASR、LLM、および TTS)をカスタム WebSocket サーバーと統合し、トークンと音声をリアルタイムでストリームします。デプロイメントオプションには、マルチユーザー作業負荷向けの Modal GPU クラウド、ローカル DGX Spark または RTX 5090 GPU(Blackwell GB10 上の CUDA 13.1、RTX 5090 上の CUDA 13.0)、および GitHub リポジトリで入手可能な Docker コンテナが用意されています。
性能測定では、サーバー側の音声対音声レイテンシーは RTX 5090 で約 415–508 ms、DGX Spark で約 759–1359 ms と報告されており、クライアント側オーバーヘッドが OS、エンコーディング/デコード、およびネットワーク転送によりさらに 250–600 ms を追加します。単一 GPU 設定では、エージェントは LLM と TTS 推論(小さなトークンチャンクの後に音声生成)を交互に実行し、Smart Turn を CPU 上で走らせることでスループットを最大化します。
オープンモデルはファインチューニング、カスタムパイプライン、および VPC 内ホスティングを可能にし、高精度と規制遵守が必要なエンタープライズ音声エージェントに不可欠です。NVIDIA は近々 Nemotron 3 の大型バリアントをリリース予定であり、その性能が同様に拡大すれば、より要求の高い対話システムを動かすことができるでしょう。
GitHub リポジトリには、推論結果フォーマットと KV キャッシュ用の vLLM および llama.cpp パッチ、Magpie 用 WebSocket 推論サーバー、およびターゲットハードウェアに合わせた Dockerfile が含まれています。追加学習リソースとして「Voice AI & Voice Agents Illustrated Primer」、Discord コミュニティチャネル、および録画済みコースセッションが提供されています。
Text to translate
(incorporating missing details while preserving clarity):**
NVIDIA has opened up its low‑latency voice AI stack—Nemotron Speech ASR, Nemotron 3 Nano, and Magpie TTS—under a permissive license so developers can build commercial, privacy‑aware agents on their own hardware or cloud services.
- ASR delivers final transcripts in < 24 ms with WER comparable to top commercial models, supports four context sizes (80 ms–1.2 s), and is exposed via a Pipecat WebSocket transcription server.
- Nemotron 3 Nano (30B‑parameter LLM) achieves ~91–93 % pass rates on multi‑turn benchmarks with median 171 ms / p95 199 ms inference; it can be Q8 or Q4 quantized for faster deployment on DGX Spark or RTX 5090 GPUs.
- Magpie offers hybrid streaming TTS that cuts initial response latency by up to three times (≈90 ms vs 210 ms on RTX 5090).
The stack integrates Pipecat’s low‑latency building blocks—Smart Turn turn detection, ASR, LLM, and TTS—with custom WebSocket servers to stream tokens and audio in real time. Deployment options include Modal GPU cloud for multi‑user workloads, local DGX Spark or RTX 5090 GPUs (CUDA 13.1 on Blackwell GB10, CUDA 13.0 on RTX 5090), and ready‑to‑run Docker containers available in the GitHub repo.
Performance measurements show server‑side voice‑to‑voice latency of ~415–508 ms on RTX 5090 and ~759–1359 ms on DGX Spark; client‑side overhead adds another 250–600 ms due to OS, encoding/decoding, and network transport. For single‑GPU setups, the agent interleaves LLM and TTS inference (small token chunks followed by audio generation) while running Smart Turn on CPU to maximize throughput.
Open models allow fine‑tuning, custom pipelines, and in‑VPC hosting—critical for enterprise voice agents that need high accuracy and regulatory compliance. NVIDIA plans larger Nemotron 3 variants soon; if their performance scales similarly, they could power more demanding dialogue systems.
The GitHub repository includes vLLM and llama.cpp patches for reasoning output formatting and KV caching, a WebSocket inference server for Magpie, and Dockerfiles tailored to the target hardware. Additional learning resources are provided via the “Voice AI & Voice Agents Illustrated Primer,” Discord community channels, and recorded course sessions.
本文
NVIDIA Cache‑Aware Streaming ASR を使った超低遅延音声エージェントの構築方法
この記事は、Hugging Face 上で公開された NVIDIA Nemotron Speech ASR のローンチに合わせて書かれています(詳細発表はこちら)。
以下の 3 つの NVIDIA オープンモデルを使って音声エージェントを構築します。
- Nemotron Speech ASR – 新しいストリーミング ASR モデル。
- Nemotron 3 Nano – 30B パラメータ LLM(プレビュー版チェックポイント)。
- Magpie TTS – 今後公開予定のテキスト→音声モデル(オープンソース・プレビュー)。
エージェントは Pipecat の低遅延ビルディングブロックとコード実験を活用し、3つのモデルすべてで非常に高速な応答時間を実現します。
全コードは GitHub リポジトリこちらにあります。
Modal 上でマルチユーザー向けワークロードとして、あるいは NVIDIA DGX Spark / RTX 5090 で単一ユーザー開発用にローカル実行できます。
2026年の音声 AI エージェント事情
音声エージェントはカスタマーサポート、小規模事業向けコール応答、患者事前電話、ローン申請検証など多岐にわたるユースケースで拡大しています。
スタートアップも大企業も「タスク完了率」と顧客満足度を高めるエージェント構築に注力しています。
音声 AI アーキテクチャ
- パイプライン方式 – スピーチ→テキスト → LLM → テキスト→音声(ほとんどの本番システム)。
- 統合スピーチ‑トゥ‑スピーチ LLM – 音声入力を直接受け取り、オーディオで出力する新モデル。
企業向けユースケースではまだパイプラインが知能と柔軟性の点で好まれますが、統合モデルは重要度が増していきます。
音声エージェントはマルチエージェントシステム化も進み、サブ‑エージェントが非同期タスクを処理し、会話コンテキストを管理し、テキストと音声のワークフロー間でコードを再利用します。
詳細は Voice AI & Voice Agents Illustrated Primer を参照ください。
オープンソースモデル
オープンモデルは従来、速度・精度・自然性で商用版に遅れがちでした。
NVIDIA の Nemotron Speech ASR は商用 ASR と同等かそれ以上の性能を持ちながらオープンソース(NVIDIA Permissive Open‑Model License)です。
Nemotron 3 Nano は長コンテキスト・マルチターンベンチマークで 30B LLM の中で最高パフォーマンスを示します。
オープンモデルを使うメリットは以下の通りです。
- 推論スタックを自由に構成・カスタマイズできる。
- 遅延最適化、ローカルファインチューニング、VPC 内ホスティング、観測性実装が可能。
超高速音声エージェント
ストリーミングによる高速文字起こし
Nemotron Speech ASR は GPU ハードウェア上で 24 ms 未満 の最終転写を提供し、Whisper(600–800 ms)やほとんどの商用モデル(200–400 ms)より遥かに速いです。
アーキテクチャ
WebSocket → Audio Accumulator → Mel‑Spectrogram Preprocessor → Streaming Encoder → Greedy Decoder → Transcript Output
デコードへのリセット信号は WebSocket ハンドラから直接送ることができます。
同時に行うターン検出
Nemotron Speech ASR は 4 種類のコンテキストサイズ(80 ms, 160 ms, 560 ms, 1.2 s)を提供します。
Pipecat の Smart Turn モデルと合わせるため 160 ms を選択しています。
200 ms の無音が検出されたら → 転写を確定 Padding = (right_context + 1) * shift_frames * hop_samples = (1 + 1) * 16 * 160 = 5120 サンプル ≈ 320 ms
WebSocket サーバは 200 ms の非音声領域を受信し、120 ms の合成無音を追加して転写を迅速に確定します。
Nemotron 3 Nano
| バリアント | デプロイメント | 宿在メモリ |
|---|---|---|
| BF16 | Modal Cloud / DGX Spark | 72 GB |
| Q8 | DGX Spark | 32 GB |
| Q4 | RTX 5090 | 24 GB |
高速コアループでは Reasoning モードは通常無効です。
Magpie ストリーミングサーバ
Magpie TTS(オープンソースプレビュー)はバッチモードまたはハイブリッドストリーミングモードで利用可能。
ハイブリッドストリーミングは初期応答遅延をバッチに比べ約 3 倍改善します。
| ハードウェア | バッチ P50 | パイプライン P50 |
|---|---|---|
| RTX 5090 | 191 ms | 101 ms |
| DGX Spark | 422 ms | 186 ms |
品質トレードオフは存在し、今後の再訓練と推論最適化が計画されています。
遅延測定
サーバー側メトリクス(ログ行)には次のように記録されます。
V2VMetrics: ServerVoiceToVoice TTFB: 465ms ASR: 13–70 ms LLM: 71–255 ms TTS: 99–146 ms V2V: 415–639 ms (RTX 5090)
クライアント側の音声‑to‑音声遅延は、通話を録音しユーザー発話終了とボット発話開始のギャップを測定して算出します。
OS・エンコード/デコード・ネットワーク転送の影響でサーバー側より約 250 ms 高くなることが一般的です。
ローカル推論最適化
すべてのモデルをローカル GPU 上で共有する場合:
- Smart Turn は CPU 上で実行(十分高速)し、ユーザー発話時は GPU を ASR に解放。
- LLM/TTS の交互チャンク:数個の小さな LLM トークンを生成 → TTS オーディオ → さらに LLM トークン … として、最初のトークンまでの時間を短縮。
この設計は Magpie 用カスタム WebSocket サーバと llama.cpp を用いた LLM 推論で細かいチャンク化を実現します。
エージェントの起動
- 本番 – Modal GPU クラウドへデプロイ(GitHub README の手順参照)。
- ローカル開発 – DGX Spark(arm64 + Blackwell CUDA 13.1)と RTX 5090(x86_64 + Blackwell CUDA 13.0)の Dockerfile が用意されています。
参考資料
- Voice AI & Voice Agents Illustrated Primer
- コミュニティ音声エージェントコースの YouTube 録画
- Pipecat Discord – 音声エージェント開発者が活発に交流するコミュニティ