オーディオは、小規模ラボが勝ちつつある唯一の分野です。

要約

Amplifyは、Kyutaiから分社化されたスタートアップGradiumに投資しました。Gradiumは、Kyutaiの研究プロトタイプであるMoshiとHibikiを、本番環境向けの多言語音声AI製品へと変換しています。
2024年夏、Kyutai創業者の一人であるNeilは、世界初のリアルタイム全双方向会話型AI「Moshi」をデモしました。このAIは、遮断・バックチャネル・声質変更を行い、約160 msのレイテンシで応答できます。Moshiは4名の研究者が6か月間でゼロから構築し、事前学習済みモデルを一切使用せず、オープンソース化され、モバイルデバイス上でも動作します。また、極めて限られた資金で開発されました。

KyutaiはさらにHibikiという同時音声対音声翻訳システムをリリースしました。これは話者の声を保持したまま翻訳し、またMimiコーデック―SoundStreamに由来するニューラルオーディオコーデック―は、スピーチのみのビットレートで音声・音楽・一般音声を圧縮しつつリアルタイムトークン生成を可能にします。
Gradiumの**DSM（Delayed Streams Modeling）**技術は、意味的および音響的トークンを単一の因果ストリームでモデル化し、双方向多言語翻訳を実現しています。

7,000万ドル規模の資金調達ラウンドにより、Gradiumはこれらの研究プロトタイプと商用展開とのギャップを埋めることを目指し、APIおよびパブリックチャットインターフェースを提供しています。これにより、モデルをリアルタイム音声アプリケーションに興味がある開発者向けのプラグ＆プレイ構成要素として位置づけています。
音声モデルは大型言語モデル（例：Moshiは7 Bパラメータ対Llama 3.1は405 B）よりもずっと小さいため、訓練コストが低く高速です。このため、コーデック設計・トーンテイキング・バックチャネルに関する深いドメイン知識を持つ資金不足のスタートアップでも、大規模ラボを上回る性能を発揮し、リアルタイム音声AIの採用を加速させることができます。

開示: アンプリファイはグラディウムの投資家です。

AI研究が「スター・ウォーズ」で、OpenAI が「デス・スターボ」だとしたら、疑いもなくレジスタンス側が音声モデルを構築しているでしょう。
TTS、STS、STT など音声分野で最高のモデルは大きな研究所からではなく、資金不足・人員不足・注目度が低い同業他社―数多くの驚異的スタートアップ―によって作られています。彼らは毎回新しいモデルをリリースするたびにベンチマークを破り続けており、音声が AI の最大の未来モダリティであると信じる研究者（多く）がいる今、genAI において最も興味深くかつ過小評価されているトピックの一つです。

代表例：グラディウム

オープンラボ「キュタイ」から生まれたグラディウムは、4 人の研究者がゼロから（事前学習済みベースを使わずに）6 ヶ月で Moshi ― 完全双方向会話 AI モデル ― を構築したチームから誕生しました。モデルはオープンソースでモバイル上でも動作し、極めて限られた資金しか持たない非営利団体によって公開されました。

本稿の概要

音声 ML の簡潔な歴史と常に見落とされる理由
大規模研究所 vs. 小規模チームのダイナミクス
音声 AI モデルを訓練する際のアーキテクチャ
グラディウム／キュタイのコア研究：完全双方向モデル、音声コードック等

1. 音声 ML の簡潔な歴史

サイエンスフィクション映画（2001年『2001年宇宙の旅』、『Her』、『アイアンマン』）では AI が自然で人間らしい声で話します。しかし私たちのデバイスはまだその理想から遠く離れています。

音声が遅れている理由

データ不足
- Wikipedia、Stack Overflow、本などのテキストコーパスは数兆トークンを提供する一方で、高品質な対話音声は入手が難しく、多くは詰め込み語で満たされています。
文化的バイアス
- 2010年代中頃、ディープラーニングは画像とテキストの分野で注目を浴びましたが、音声は「極めて難しい」と感じられていました。
- Siri のような音声アシスタントは笑えるほど下手だったため、敗北感が強まっていました。
業界の慣性
- キュタイ共同創設者ニールが2019年に Google Brain に入社したとき、音声は「解決済み問題」と見なされていました。
- Meta や Google のプロジェクトは公開後も長い間停滞していました。

こうした状況は、資金不足ながらも有望である難しい技術課題の機会を生み出しました。ドメインを真に理解できる少数の研究者が迅速に動き、大規模ラボよりも優れた結果を出すことが可能になったのです。

2. 大規模研究所 vs. 小規模チームのダイナミクス

研究科学者 はかつて「アイデア担当」で名声を得ていましたが、エンジニアが実装していた。
ディープラーニングの登場により、アイデアは安価になり、エンジニアが権威を持ち始めました。
新しいヒエラルキーは理論的斬新さよりも具体的成果を重視し、大規模な計算資源を必要としないことが多いです。

小規模の研究者・エンジニアグループは、次の理由で大規模ラボに勝ることがあります。

迅速に動く
自らアイデアを構築
大規模ラボ特有の政治的障壁を回避

音声はテキストとは異なり、**トランスタイミング（発話の交代）**や バックチャネル、レイテンシ管理など深いドメイン知識が必要です。金銭投下だけでは中途半端な成果に留まり、大きな音声モデルは優れた音声研究者から生まれることが多いのです。

3. 音声モデル訓練のアナトミー

テキストとの類似点

ほとんどの最先端音声モデルは Transformer ベースのアーキテクチャを採用
LLM の進歩（RLHF、蒸留）やハードウェア最適化から恩恵を受ける

違い

観点	テキスト	音声
データ量	数兆トークン	高品質対話音声は限られる
モデルサイズ	100B を超えることも	Moshi は 7B、2.1T トークンで訓練
訓練データ	インターネットコーパス	Voxpopuli, MADLAD‑400, NTREX 等の専門データセット
評価	定量的指標	主観的ヒューマン評価・ブラインドテスト

Moshi の訓練パイプライン

プレトレーニング – 7M 時間分の音声＋文字起こし
ポストトレーニング – Fisher データセット（2000h 電話会話）
指示ファインチューニング – 合計20k+ 時間の合成対話

4. グラディウム／キュタイ研究の核心

完全双方向モデル vs. スピーチ‑トゥー‑スピーチ (S2S)

発話交代（Turn‑taking）: ユーザーが話し終えるタイミングはいつか？モデルは中断すべきか？
完全双方向: ユーザーとマシンの二つのストリームで同時に話したり、バックチャネルを挟みながら動的に対話できる。
S2S: 発話ベースで、中断や被中断は不可能。

キュタイは単純なマルチストリームアーキテクチャで発話交代問題を解決し、完全双方向を実現しました。この同じアイデアが Hibiki というリアルタイム翻訳モデルに活かされ、スピーカーの声で翻訳結果を出力します。

音声コードックと Mimi

Codec = 音声をモデルフレンドリーなトークンへ圧縮するエンコーダ‑デコーダ
従来のコードックは音声 vs. 楽曲などドメイン特化型
Mimi: ニューラルコードックで、ターゲットビットレートに合わせて音声・楽曲・汎用音を圧縮し、ドメイン特化と汎用のベストを融合

意味的 & 音響トークン

意味的トークン = 内容（単語や意味）
音響トークン = スタイル（声質・感情）
以前は階層構造で扱われていたが、キュタイはそれらを一つの因果生成プロセスに統合。Moshi は各タイムステップで1つの意味的トークンと6つの音響トークンを生成します。

5. 小規模チームが音声で勝る理由

小規模 – 7B パラメータ vs. 405B の大規模モデル；計算コストも低い
ドメイン専門性 – 聴覚・心理物理学・圧縮トレードオフの理解が必要で、テキストトークナイザーには不要
革新 vs. 規模 – 完全双方向アーキテクチャや Mimi コードックといった創造的アイデアが、ブートフォースでは解決できない長年の問題を解決

グラディウムはこれら研究突破点をプロダクションレベルへ落とし込み、最先端と競合する実用アプリケーションを提供します。

参加方法

グラディウムのモデルにアクセスしてチャット
API ドキュメントを参照し、自身の音声 AI ソリューション構築

May the voice be with you.