リアルタイム音声翻訳のためのJEPA（Joint End-to-End Pronunciation Alignment）の探索

Japanese Translation:

Summary

JEPA‑v0は、音声から音声への翻訳においてプロソディーと話者アイデンティティを保持する自己教師付きオーディオエンコーダであり、従来のASR→MT→TTSパイプラインの制限を解決します。数百万件のラベルなし音声録音から学習し、ジョイント・埋め込み予測フレームワークを採用しています：12層のViT‑Baseコンテキストエンコーダがマルチブロックマスキングでターゲット埋め込みを予測し、EMA（τ = 0.996）で更新されたコピー（stop‑gradient）から生成されます。ボトルネック変換器プロデクタはマスクされたパッチを再構築し、表現崩壊を防止します。

XARESベンチマークでの評価では、JEPA‑v0はスプーフィング検出（0.927）において競争力がありますが、一般的な字幕付け、感情認識、キーワードスポッティング、言語ID、意図分類、および音声認識に関してはWhisper、Mimi、VQ‑VAEよりも劣ります。潜在軌跡解析では、JEPAが音響構造全体（色調・リズム・感情の変化）を捉える一方で、フォニック変異を崩壊させているため、言語間でオーディオを言語内容にマッピングする能力が制限されています。

将来的な研究では時間分解能を高め、周波数感知プーリングを追加し、翻訳デコーダを統合して、翻訳ステップで話者アイデンティティが保持されるかどうかを検証します。これらの改善が成功すれば、JEPA‑v0はビデオ会議、カスタマーサポートボット、メディアローカリゼーションなどの応用において、より自然でリアルタイムなクロスリンガルコミュニケーションを可能にし、大規模ラベル付きデータセットへの依存を減らすことができるでしょう。

音声エンコーダが重要な理由

東京にいる同僚とビデオ通話をしているとします。彼女はプロジェクトの締め切りを延期する必要性について説明しています。あなたは日本語を話せないので、翻訳システムが介入します：まず音声をテキストへ文字起こしし、そのテキストを別言語に翻訳し、最後にロボットのような声で読み上げます。単語は伝わりますが、緊迫感や感情、個性までは失われてしまいます。

この問題は従来型の「カスケードパイプライン」（ASR → MT → TTS）に起因します。音声をテキストの容器として扱い、最初の段階でピッチやリズムといった非言語的情報を捨ててしまうため、それらは後続プロセスでは回復できません。

より優れたアプローチは、発話内容だけでなく「どのように発話されたか」を同時に保持する豊かな音声表現と直接やり取りします。Meta の SeamlessStreaming や Kyutai の Hibiki などが代表例です。これらは送信者の音声を、意味情報＋副言語的情報（感情・リズム・話者特性）を保持した表現にエンコードし、その表現をターゲット言語へデコードすることで、発話内容と話者特徴を同時に維持します。

この音声→音声翻訳アプローチの中核となるのが「オーディオ・エンコーダ」です。もし感情や韻律が取り除かれてしまえば、後続の翻訳器はそれらを再現できません。一方でこれらを保持すれば、すべての下流タスクに恩恵があります。したがって、オーディオ・エンコーダの品質こそが、全 downstream タスクの上限を決定付ける要因となります。

JEPA‑v0

JEPA‑v0 は、リアルタイム音声→音声翻訳を実現するために十分豊かな表現を生成できるオーディオ・エンコーダを構築しようとした試みです。

何故自己教師あり学習なのか？

スーパーバイズド多言語音声エンコーダをゼロから訓練するには、数十言語にわたる平行音声データ、話者ラベル、感情アノテーション、韻律マーカーなどの膨大な資源が必要です。実際、そのようなデータセットはほぼ存在しません。Whisper のようなスーパーバイズドモデルは極めて高品質な文字起こし表現を学習しますが、翻訳に不可欠な副言語的特徴（感情・リズムなど）には最適化されていません。

自己教師あり学習では、ラベル無しの生音声から構造を自動で発見させます。これは BERT や GPT が未ラベルテキストから学んだプロセスに似ています。JEPA‑v0 では、数百万件の多言語音声・環境音・音楽サンプルを単一のラベル無しデータとして使用し、フォニックパターン、話者特性、感情的バレンス、リズム構造、音響イベントといった情報を同時に学習します。

見えないものを予測することで学ぶ

自己教師ありオーディオには主に２つの手法があります。

手法	アナロジー	代表的モデル
マスク付き再構築	「スペクトログラムの欠損部分を埋める」	AudioMAE
対照学習	「二つの変形したコピーは同一クリップから来たか？」	wav2vec 2.0、BYOL

マスク付き再構築 はスペクトログラムの正確な値を予測させるため、マイクロノイズや機器固有の詳細に過剰に適合しがちです。
対照学習 は同一音声の表現を近づけ、異なる音声を遠ざけますが、データ拡張は手作業で設計されるため、翻訳エンコーダが本当に必要とするピッチやリズムなどの変動を無視してしまう恐れがあります。

JEPA：意味を予測し詳細は捨てる

JEPA（Joint‑Embedding Predictive Architecture）は第三の道を提供します。生音声そのものではなく、別のエンコーダが生成した表現を予測させます。この表現は圧縮された抽象的な要約（「ここで犬が吠えている」）であり、意味と構造的内容を捉えつつ、無関係な音響詳細は除外します。

Audio JEPA の仕組み

コンテキストエンコーダ
- 入力：ログメルスペクトログラム（512 × 96）
- パッチ化：16 × 16 → 192パッチ → 768次元埋め込み＋位置符号
- マスク：ランダムな予測ブロック（約35–50％）＋大きなコンテキストブロック（約40–55％表示）
- アーキテクチャ：Vision Transformer（12層、12ヘッド、768次元；≈86 Mパラメータ）
ターゲットエンコーダ
同じアーキテクチャで全パッチを見ます。重みはコンテキストエンコーダの指数移動平均（EMA）です： [ \theta_{\text{target}} \leftarrow \tau,\theta_{\text{target}}
- (1-\tau),\theta_{\text{context}},\quad \tau = 0.996!\rightarrow!1.0 ] ターゲットはゆっくり変化する教師で、安定した学習目標を提供します。
予測器
- 可視パッチの埋め込みを受け取り、768→384（ボトルネック）へ投影
- 各マスク位置に対して学習可能なマスクトークンを結合
- 6層 Transformer を通し、マスクトークンのみを出力、再び 768 次元へプロジェクション
損失
予測器の出力とターゲット表現との正規化 MSE（コサイン類似度最大化に相当）

なぜ崩壊しないのか

ターゲットへの勾配は止められる（stop‑gradient）
EMA モメンタムで、ターゲットはゆっくり動き、コンテキストは速く学習 → 自己解決的な解に陥りにくい
予測器のボトルネックが 384 次元に圧縮されることで、単なる記憶ではなく構造的予測を強制

Ponce 等（ICLR 2026）は、EMA ベースのダイナミクスが滑らかな目的関数を最適化しないにもかかわらず、有用で非崩壊表現に収束することを証明しています。

取得できる表現の特徴

タスク	JEPA‑v0	Audio‑JEPA	Whisper	Mimi
スプーフィング検出	0.927	0.939	0.946	0.962
音楽キャプション（SongDescriber）	0.481	0.445	0.447	0.473
一般キャプション（MeCat）	0.478	0.490	0.625	0.583
ボーカル音声分類	0.795	0.401	0.866	0.907
感情認識（CREMA‑D）	0.456	0.383	0.506	0.580
キーワードスポッティング（SpeechCommands）	0.091	0.052	0.707	0.678
言語識別	0.078	0.044	0.829	0.540
意図分類	0.155	0.104	0.823	0.983
音声認識（LibriSpeech）	0.000	0.000	0.375	0.637
音声認識（AISHELL‑1）	0.000	0.000	0.359	0.157

JEPA‑v0 はスプーフィング検出でベースラインと同等ですが、一般キャプションや音声認識などの細かなフォニック・言語情報を要求するタスクでは遅れを取ります。

埋め込み可視化

LibriSpeech – 埋め込みが狭い領域に収束（PC1＋PC2 が 78.6 % の分散を説明）し、フォニム判別が限定的
CREMA‑D – 距離が広く飛び跳ねる軌跡で、ピッチ・エネルギー・感情ダイナミクスを捉えていることが示唆され、感情認識のやや低い点数に寄与
GTZAN – 高次元性（PC1＋PC2 が 59.2 %）で軌跡が平面全体に広がり、豊かな音楽テクスチャを捉えている

今後の展望

時間分解能の向上
- パッチサイズを小さくするか、階層的表現を採用し、より細かいフォニックシーケンスを取得
周波数構造の保持
- 1 次元フレーム平均化ではなく、2 次元出力や周波数感知プーリングに移行し、母音・共鳴特性を保持
翻訳デコーダとの接続
- JEPA 表現を自動回帰型音声→音声モデルへ入力し、話者特徴と内容の両方を保ったまま翻訳
言語横断的整合性
- クロスリンガル目的関数や downstream 翻訳器との共同訓練を取り入れ、意味が等価な発話が埋め込み空間で近接するように調整

参考文献

LeCun, “A Path Towards Autonomous Machine Intelligence” (2022).
Assran 等, “Self‑Supervised Learning from Images with a Joint‑Embedding Predictive Architecture” (CVPR 2023).
Tuncay 等, “Audio‑JEPA: Joint‑Embedding Predictive Architecture for Audio Representation Learning” (ICME 2025).
Ioannides 等, “JEPA as a Neural Tokenizer” (2024).
Mentzer 等, “Finite Scalar Quantization: VQ‑VAE Made Simple” (ICLR 2024).
Zhang 等, “X‑ARES: A Comprehensive Framework for Assessing Audio Encoder Performance” (2025).
Ponce 等, “Dual Perspectives on Non‑Contrastive Self‑Supervised Learning” (ICLR 2026).