
2025/12/17 3:26
Meta Segment Anything Model Audio
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Metaは、テキスト、ビジュアル(動画セグメントをクリック)、またはスパン(時間範囲)プロンプトを使用して、任意の音声または映像ソースからターゲットと残余音を分離できる生成的音声分離モデル「SAM Audio」を発表しました。これはサウンド分離にスパンプロンプティングを提供する最初のモデルです。DAC‑VAE潜在空間で動作するフロー・マッチングDiffusion Transformerを基盤としたSAM Audioは、一般音声、音楽、およびスピーチ全般で最先端の性能を達成し、トップレベルの音楽分離システムに匹敵します。Metaはまた、人間評価と高い相関を示すジャッジモデルとともにオープンソースの評価データセット、および既存の知覚エンコーダに音声機能を追加するPerception Encoder Audio Video(PE‑AV)も公開しました。2gether‑InternationalとのAI for Goodパートナーシップは、障害を持つ創業者がSAM Audioを活用して早期段階のAIスタートアップイノベーションを加速できることを示し、補聴器メーカーStarkeyは騒音環境や重複するスピーチでの性能向上に機会を見出しています。Metaのリリースは、画像と動画におけるオブジェクト検出・セグメンテーション・トラッキング・3‑D再構成のためにテキスト/ビジュアルプロンプティングを提供する関連モデル(Segment Anything Model SAM 3 および SAM 3D)も推進しています。
本文
Meta(メタ)によるAIリサーチ – Segment Anything Model Audio (SAM Audio)
概要
SAM Audioは、直感的なプロンプトを用いて正確に音声を分離できる、最先端の統合マルチモーダルモデルです。複雑な混合音から一般的なサウンド、楽器・音楽、そして話し言葉までを切り出すことが可能です。
機能
| プロンプトタイプ | 役割 |
|---|---|
| テキスト | 分離したい対象の音声を説明します(例:「声」「犬の鳴き声」)。 |
| ビジュアル | 動画上で、対象となる音が発生している領域をクリックします。 |
| スパン | 対象オーディオを含む時間範囲を指定します。 |
| マルチモーダル | 上記の任意のプロンプトを組み合わせて、柔軟かつ正確に分離します。 |
音声分離のユースケース
- 一般サウンド – 録音から交通騒音や犬の鳴き声などの日常的なノイズを除去。
- 音楽 – 楽器とボーカルを高精度で切り出し、トップクラスの音楽分離モデルに匹敵。
- スピーチ – 背景雑音からクリアな話し言葉を抽出し、話者の分離を向上。
パフォーマンス
SAM Audioは、すべてのプロンプトモダリティで従来最先端を凌駕する性能を実現しています。
技術的アプローチ
- 生成型分離モデル – テキスト・ビジュアル・時間プロンプトを用いて対象音と残留音(レジデュアル)を同時に抽出。
- フロー‐マッチング拡散変換器 (Flow‑Matching Diffusion Transformer) – DAC‑VAE 潜在空間で動作し、オーディオスタムの高品質な共同生成を実現。
- Audio–Visual Perception Encoder (PE‑AV) – Meta の既存の知覚エンコーダに音声機能を追加。
評価
SAM Audioは、プロンプト付き音声分離のための最初のオープンソース評価セットを導入し、人間主観評価と高い相関を示すジャッジモデルを併用しています。
実世界へのインパクト
“人工知能は障害者コミュニティにとってゲームチェンジャーです…” – Diego Mariscal, 2gether-International CEO
“Starkey の取り組みは補聴器をさらに進化させています… SAM Audio のようなオープンモデルで大きな可能性が見えてきます。” – Achin Bhowmik, Starkey 社CTO & EVP Engineering
これらのパートナーシップは、オープンAIモデルがイノベーションを加速し、多様な分野で生活を向上させる方法を示しています。
関連モデル
- SAM 3 – テキストとビジュアルプロンプトを用いて画像や動画内の任意のオブジェクトを検出・セグメント化・追跡。
- SAM 3D – 空間理解アプリケーション向けに 3‑D 人物とオブジェクトを再構築・解析。