
2026/03/18 14:00
メタ社のオムニリンガル機械翻訳(Omnilingual MT)は、1,600言語に対応しています。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
本論文は、1,600以上の言語をサポートする初めての MT システムである OMT(Omnilingual Machine Translation)を提示します。これは、大規模な公開多言語コーパスと、新しいデータセット—手動でキュレーションされた MeDLEY ビットキスト、合成バックトランスレーション、およびマイニングされた平行文—を組み合わせて長尾言語をカバーすることで実現されます。評価には標準指標に加え、BLASER 3(品質推定)、OmniTOX(毒性分類)、BOUQuET(ゼロから作成した最大規模の多言語評価セット)、および Met‑BOUQuET(スケールでの多言語品質推定)といった新しいアーティファクトが使用されます。
2 つの専門化手法を検討しています:LLaMA3 をベースにしたマルチリンガル継続事前学習および検索補強翻訳を備えたデコーダーのみ OMT‑LLaMA、そして OmniSONAR(同じく LLaMA3 に根ざす)に基づき非平行データを取り込んだエンコーダ―–デコーダー OMT‑NLLB。全モデルは 1 B–8 B パラメータで、70 B の大規模言語モデルベースラインの MT 性能に匹敵または上回りつつ、計算コストがはるかに低く抑えられます。特に OMT‑LLaMA は、基準モデルが頻繁に失敗する未サポート言語に対して一貫した生成を大幅に拡張し、全言語セットにわたってクロスリンガル転送(「理解」)を改善します。
著者らは、ドメイン固有データが利用可能な場合のファインチューニングと検索補強生成によるさらなる利得を予測しています。BOUQuET と Met‑BOUQuET ベンチマークは真のオムニリンガリティに向けて積極的に進化しており、すべてのデータセット、コード、およびモデルチェックポイントは、リソース制約下で信頼できる多言語 NLP ソリューションを求める研究者・開発者・企業が自由にダウンロード可能です。
本文
概要
No Language Left Behind(NLLB)を通じて得られた進歩は、高品質の機械翻訳(MT)が200言語に拡張できることを示しました。最近では大規模言語モデル(LLM)が MT に採用され、品質は向上したものの必ずしも言語カバレッジが広がっているわけではありません。現在のシステムは依然として限定的なカバレッジと生成ボトルネックに制約を受けています。クロスリンガル転移により多くの低サポート言語を理解できるようになった一方で、安定してそれらを生成できないため、世界の7 000 種類以上の言語―特に絶滅危惧種や周縁化された言語―は現代 MT の範囲外となっています。極端なスケーリングによる初期探索では有望な概念実証が得られたものの、持続可能な解決策には至りませんでした。
本研究では Omnilingual Machine Translation(OMT) を提案します。OMT は 1 600 種類以上をサポートする初の MT システムです。このスケールは、大規模公開多言語コーパスと新たに作成したデータセット(手動でキュレーションされた MeDLEY ビットキスト、合成バックトランスレーション、マイニング等)を統合する包括的なデータ戦略によって実現されました。これにより長尾言語・ドメイン・レジスター全体のカバレッジが大幅に拡張されます。
評価を信頼性と網羅性で確保するため、従来の指標に加え以下の評価アーティファクトを組み合わせました。
- BLASER 3(リファレンスフリー品質推定モデル)
- OmniTOX(毒性分類器)
- BOUQuET(最新最大規模の多言語評価コレクションで、幅広い言語族を手動拡張したもの)
- Met‑BOUQuET(大規模で忠実な多言語品質推定データセット)
次に、LLM を MT に特化させる二つのアプローチを検討します。
- Decoder‑only モデル(OMT‑LLaMA):LLaMA3 ベースに多言語継続事前学習と推論時のリトリーバル拡張翻訳を組み込んだモデル。
- Encoder–Decoder アーキテクチャ内のモジュール(OMT‑NLLB):OmniSONAR(同じく LLaMA3 ベース)の多言語整列空間上に構築し、非平行データを活用できる訓練手法を導入。これにより Decoder‑only の継続事前学習データを Encoder–Decoder 訓練へ統合します。
1 B から 8 B パラメータの全モデルは、70 B LLM ベースラインと同等または上回る MT 性能を示し、専門化による明確な利点が確認されました。低計算環境でも高い翻訳品質を実現します。
さらに、英語から 1 600 言語への翻訳評価では、ベースラインモデルは低サポート言語を理解できても意味的に忠実に生成することが頻繁に失敗します。一方 OMT‑LLaMA モデルは、コヒーレントな生成が可能な言語セットを大幅に拡張し、クロスリンガル転移も改善されました。結果として、1 600 評価対象言語に対して「理解」側の課題解決に近づいています。
オフ・ザ・ボックスで優れた性能を示すだけでなく、ファインチューニングやリトリーバル拡張生成は、特定データやドメイン知識が利用可能な際に品質向上の追加手段となります。
本研究の leaderboard と主要人間作成評価データセット(BOUQuET と Met‑BOUQuET)はオムニリンガル化へ動的に進化し、無料で公開されています。論文をダウンロードしてください。