メタ社のオムニリンガル機械翻訳(Omnilingual MT)は、1,600言語に対応しています。

2026/03/18 14:00

メタ社のオムニリンガル機械翻訳(Omnilingual MT)は、1,600言語に対応しています。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
本論文は、1,600以上の言語をサポートする初めての MT システムである OMT(Omnilingual Machine Translation)を提示します。これは、大規模な公開多言語コーパスと、新しいデータセット—手動でキュレーションされた MeDLEY ビットキスト、合成バックトランスレーション、およびマイニングされた平行文—を組み合わせて長尾言語をカバーすることで実現されます。評価には標準指標に加え、BLASER 3(品質推定)、OmniTOX(毒性分類)、BOUQuET(ゼロから作成した最大規模の多言語評価セット)、および Met‑BOUQuET(スケールでの多言語品質推定)といった新しいアーティファクトが使用されます。
2 つの専門化手法を検討しています:LLaMA3 をベースにしたマルチリンガル継続事前学習および検索補強翻訳を備えたデコーダーのみ OMT‑LLaMA、そして OmniSONAR(同じく LLaMA3 に根ざす)に基づき非平行データを取り込んだエンコーダ―–デコーダー OMT‑NLLB。全モデルは 1 B–8 B パラメータで、70 B の大規模言語モデルベースラインの MT 性能に匹敵または上回りつつ、計算コストがはるかに低く抑えられます。特に OMT‑LLaMA は、基準モデルが頻繁に失敗する未サポート言語に対して一貫した生成を大幅に拡張し、全言語セットにわたってクロスリンガル転送(「理解」)を改善します。
著者らは、ドメイン固有データが利用可能な場合のファインチューニングと検索補強生成によるさらなる利得を予測しています。BOUQuET と Met‑BOUQuET ベンチマークは真のオムニリンガリティに向けて積極的に進化しており、すべてのデータセット、コード、およびモデルチェックポイントは、リソース制約下で信頼できる多言語 NLP ソリューションを求める研究者・開発者・企業が自由にダウンロード可能です。

本文

概要
No Language Left Behind(NLLB)を通じて得られた進歩は、高品質の機械翻訳(MT)が200言語に拡張できることを示しました。最近では大規模言語モデル(LLM)が MT に採用され、品質は向上したものの必ずしも言語カバレッジが広がっているわけではありません。現在のシステムは依然として限定的なカバレッジと生成ボトルネックに制約を受けています。クロスリンガル転移により多くの低サポート言語を理解できるようになった一方で、安定してそれらを生成できないため、世界の7 000 種類以上の言語―特に絶滅危惧種や周縁化された言語―は現代 MT の範囲外となっています。極端なスケーリングによる初期探索では有望な概念実証が得られたものの、持続可能な解決策には至りませんでした。

本研究では Omnilingual Machine Translation(OMT) を提案します。OMT は 1 600 種類以上をサポートする初の MT システムです。このスケールは、大規模公開多言語コーパスと新たに作成したデータセット(手動でキュレーションされた MeDLEY ビットキスト、合成バックトランスレーション、マイニング等)を統合する包括的なデータ戦略によって実現されました。これにより長尾言語・ドメイン・レジスター全体のカバレッジが大幅に拡張されます。

評価を信頼性と網羅性で確保するため、従来の指標に加え以下の評価アーティファクトを組み合わせました。

  • BLASER 3(リファレンスフリー品質推定モデル)
  • OmniTOX(毒性分類器)
  • BOUQuET(最新最大規模の多言語評価コレクションで、幅広い言語族を手動拡張したもの)
  • Met‑BOUQuET(大規模で忠実な多言語品質推定データセット)

次に、LLM を MT に特化させる二つのアプローチを検討します。

  1. Decoder‑only モデル(OMT‑LLaMA):LLaMA3 ベースに多言語継続事前学習と推論時のリトリーバル拡張翻訳を組み込んだモデル。
  2. Encoder–Decoder アーキテクチャ内のモジュール(OMT‑NLLB):OmniSONAR(同じく LLaMA3 ベース)の多言語整列空間上に構築し、非平行データを活用できる訓練手法を導入。これにより Decoder‑only の継続事前学習データを Encoder–Decoder 訓練へ統合します。

1 B から 8 B パラメータの全モデルは、70 B LLM ベースラインと同等または上回る MT 性能を示し、専門化による明確な利点が確認されました。低計算環境でも高い翻訳品質を実現します。

さらに、英語から 1 600 言語への翻訳評価では、ベースラインモデルは低サポート言語を理解できても意味的に忠実に生成することが頻繁に失敗します。一方 OMT‑LLaMA モデルは、コヒーレントな生成が可能な言語セットを大幅に拡張し、クロスリンガル転移も改善されました。結果として、1 600 評価対象言語に対して「理解」側の課題解決に近づいています。

オフ・ザ・ボックスで優れた性能を示すだけでなく、ファインチューニングやリトリーバル拡張生成は、特定データやドメイン知識が利用可能な際に品質向上の追加手段となります。

本研究の leaderboard と主要人間作成評価データセット(BOUQuET と Met‑BOUQuET)はオムニリンガル化へ動的に進化し、無料で公開されています。論文をダウンロードしてください。

同じ日のほかのニュース

一覧に戻る →

2026/03/22 5:32

子ども保護をインターネットアクセス制御に変えるな。

## Japanese Translation: ** ``` ## Summary この記事は、年齢確認が成人向けコンテンツサイトを越えて、ヨーロッパ・米国・英国・オーストラリアなどの主流サービス(ソーシャルメディア、ゲーム、検索等)へと拡大していることを論じている。 規制当局は、OS が永続的に「年齢ステータス」を保持し、システムレベルのインターフェースで公開するよう求めており、これによりすべてのデバイスに適用される一般的なアイデンティティ層が作られる。Linux の systemd は既に年齢保証法への対応としてオプションの `birthDate` フィールドを追加していることから、OS 変更は規制によって駆動されていることが示されている。 成人サイトでの過去の施行は、ユーザーが VPN、借用アカウント、偽データでチェックを回避できたため失敗した。提案された OS レベルのアプローチは、コンテンツモデレーションと保護者責任を混同し、有害なコンテンツ問題を純粋に技術的なものとして扱うリスクがある。一度確立されれば、このアイデンティティ層は位置情報や国籍など他の属性へ拡張でき、規制当局が将来の恐慌時に再利用するゲートとなる可能性がある。 ユーザーにとって、新しいインフラストラクチャはアイデンティティチェック、メタデータログ、ベンダー間での摩擦を追加し、信頼できるデバイスや書類を持たない人々には特に厳しくなる。企業側では、子ども保護の責任がプラットフォーム・ブラウザ・アプリストア・OS ベンダー・アイデンティティ仲介者へと移転し、現地の親や教育者の判断力を侵食する。 著者は、コンテンツモデレーションはローカル(ブラウザ/デバイス/学校ネットワーク)に留め、保護者・教師との監督を維持し、OS はポリシー表面としてのみ使用すべきであり、普遍的な年齢放送層とならないようにすることを訴えている。規制は推奨システム、ダークパターン、依存性メトリクス、拡大を報酬化するビジネスモデルに焦点を当て、全体的なアイデンティティチェックの実施ではなく、これらを対象とすべきだ。 ```

2026/03/22 5:08

TinyBox – オフライン AI デバイス(120 B パラメータ)

## Japanese Translation: Tinycorpのフラッグシッププロジェクトは **Tinygrad** で、エレメントワイズ演算(Unary、Binary、Ternaryを含む)、ReduceOps、および MovementOps の3つのコア操作タイプを中心に構築された軽量ニューラルネットワークフレームワークです。SQRT、LOG2、ADD、MUL、WHERE、SUM、MAX、RESHAPE、PERMUTE、EXPAND などの一般的な数学関数をサポートし、コード内で畳み込みと行列乗算が隠れています。Tinygrad は既に Snapdragon 845 GPU 上で Openpilot モデルを実行するために使用されており、従来の SNPE スタックを置き換えるとともに ONNX サポート、トレーニング機能、注意メカニズム、および推論と逆伝搬の完全な自動微分を追加しています。 同社のフラッグシップハードウェア **Tinybox** は、赤・緑・黒・(近日発売予定)エクサの複数構成で提供されています。主要スペックは以下の通りです:FP16/FP32 加速 FLOPS が 778 TFLOPS / 3 086 TFLOPS(約 1 EXAFLOP)、最大 25 920 GB GPU RAM、GPU 帯域幅 1 244 TB/s、PCIe 5.0 x16 ファブリック、32 コア AMD EPYC/GENOA CPU、最大 23 040 GB システム RAM、480 TB RAID ディスク、53.2 TB/s スケールアウトネットワーク、電力オプションは 1.6 kW〜600 kW、Ubuntu 24.04 OS、12U または独立型ラックマウント フォームファクター。 価格は赤/緑モデルが $12 000、黒/ウェレックスボックスが $65 000 で、エクサモデルは 2027 年頃に約 $10 百万で発売予定です。Tinybox はディープラーニング分野で最高のパフォーマンス/ドル比を実現すると市場にアピールしており、MLPerf Training 4.0 ベンチマークでは価格が 10 倍高いシステムを上回っています。 注文は同社ウェブサイトから行い、支払後 1 週間以内に発送(サンディエゴでの受け取りまたは世界配送)が可能です。支払いは銀行振込のみで、W‑9 フォームはリクエスト時に提供できますが、購入後のカスタマイズは許可されていません。 Tinygrad は現在アルファ版ですが、来年第2四半期までに単一 NVIDIA GPU および Apple の M1 を上回ることを目指しており、推論とトレーニングの両方のワークロードに対して高性能で軽量な代替案としての可能性を示しています。

2026/03/22 9:30

**コメントをもとにしたハッカーニュース利用者のプロファイリング**

## Japanese Translation: Simon Willison(Django、Datasetteの共同開発者であり、Python Software Foundationボードに在籍する独立系ソフトウェア開発者)は、AlgoliaのHacker News APIとClaude大規模言語モデルを使用して自身のコメント履歴を収集・分析し、詳細な個人プロフィールを生成する方法を示しています。APIはCORSを有効にした状態で日付順にコメントをリストアップします。カスタムツール(2023年8月に構築)は最新の最大1,000件のコメントを取得し、Claudeで洗練されたコピー・トゥー・クリップボードボタンを提供します。ダンプデータをClaude Opus 4.6へ貼り付けると、モデルはオンライン活動の包括的なプロファイルを作成します。 Willisonのより広範なワークフロー―「エージェント工学」に根ざしたもの―では、iPhoneでClaude Codeを使用してウェブタスクをコーディングしながら通勤中に2〜3つの並列エージェントセッションを$200/月のClaude Maxプランで実行し、テスト駆動開発(`uv run pytest`)でそれらを安定化させています。彼はサンドボックス/セキュリティ(WebAssembly、Pyodide、Firecracker)、SQLite、uv & PyPIトリック、ブラウザ内のブラウザテスト(`v86`、WASM Linux)、ローカルLLM推論、およびコーディングエージェントを通じてGoを学習する実験に積極的です。彼は「プロンプトインジェクション」という概念を創出し、半年以内にヘッドラインを揺さぶる攻撃の可能性を警告するとともに、OpenClaw/Clawdbotに関するリスクも指摘しています。 Willisonはsimonwillison.net/guidesでエージェント工学に関するガイドを公開予定であり、自身の手法がLLMをプログラマの代替ではなく補完として活用し、将来の開発者ワークフローやAI支援コーディングのセキュリティ実践、責任あるAIに関する議論を形成できることを示すことを期待しています。個人的なタッチとしては、彼のエネルギッシュで対立的なスタイル、透明性の高いバイアス、そして自虐的な「ペリカンベンチマーク」SVGテストがあり、ニッチな博物館、新西蘭のカカポオウム、外国料理、そしてカリフォルニア州ハーフムーン・ベイでの園芸を楽しんでいます。

メタ社のオムニリンガル機械翻訳(Omnilingual MT)は、1,600言語に対応しています。 | そっか~ニュース