2025/12/17 3:26

Meta Segment Anything Model Audio

RSS: https://news.ycombinator.com/rss

要約▶

Japanese Translation:

Metaは、テキスト、ビジュアル（動画セグメントをクリック）、またはスパン（時間範囲）プロンプトを使用して、任意の音声または映像ソースからターゲットと残余音を分離できる生成的音声分離モデル「SAM Audio」を発表しました。これはサウンド分離にスパンプロンプティングを提供する最初のモデルです。DAC‑VAE潜在空間で動作するフロー・マッチングDiffusion Transformerを基盤としたSAM Audioは、一般音声、音楽、およびスピーチ全般で最先端の性能を達成し、トップレベルの音楽分離システムに匹敵します。Metaはまた、人間評価と高い相関を示すジャッジモデルとともにオープンソースの評価データセット、および既存の知覚エンコーダに音声機能を追加するPerception Encoder Audio Video（PE‑AV）も公開しました。2gether‑InternationalとのAI for Goodパートナーシップは、障害を持つ創業者がSAM Audioを活用して早期段階のAIスタートアップイノベーションを加速できることを示し、補聴器メーカーStarkeyは騒音環境や重複するスピーチでの性能向上に機会を見出しています。Metaのリリースは、画像と動画におけるオブジェクト検出・セグメンテーション・トラッキング・3‑D再構成のためにテキスト/ビジュアルプロンプティングを提供する関連モデル（Segment Anything Model SAM 3 および SAM 3D）も推進しています。

本文

Meta（メタ）によるAIリサーチ – Segment Anything Model Audio (SAM Audio)

概要

SAM Audioは、直感的なプロンプトを用いて正確に音声を分離できる、最先端の統合マルチモーダルモデルです。複雑な混合音から一般的なサウンド、楽器・音楽、そして話し言葉までを切り出すことが可能です。

機能

プロンプトタイプ	役割
テキスト	分離したい対象の音声を説明します（例：「声」「犬の鳴き声」）。
ビジュアル	動画上で、対象となる音が発生している領域をクリックします。
スパン	対象オーディオを含む時間範囲を指定します。
マルチモーダル	上記の任意のプロンプトを組み合わせて、柔軟かつ正確に分離します。

音声分離のユースケース

一般サウンド – 録音から交通騒音や犬の鳴き声などの日常的なノイズを除去。
音楽 – 楽器とボーカルを高精度で切り出し、トップクラスの音楽分離モデルに匹敵。
スピーチ – 背景雑音からクリアな話し言葉を抽出し、話者の分離を向上。

パフォーマンス

SAM Audioは、すべてのプロンプトモダリティで従来最先端を凌駕する性能を実現しています。

技術的アプローチ

生成型分離モデル – テキスト・ビジュアル・時間プロンプトを用いて対象音と残留音（レジデュアル）を同時に抽出。
フロー‐マッチング拡散変換器 (Flow‑Matching Diffusion Transformer) – DAC‑VAE 潜在空間で動作し、オーディオスタムの高品質な共同生成を実現。
Audio–Visual Perception Encoder (PE‑AV) – Meta の既存の知覚エンコーダに音声機能を追加。

評価

SAM Audioは、プロンプト付き音声分離のための最初のオープンソース評価セットを導入し、人間主観評価と高い相関を示すジャッジモデルを併用しています。

実世界へのインパクト

“人工知能は障害者コミュニティにとってゲームチェンジャーです…” – Diego Mariscal, 2gether-International CEO

“Starkey の取り組みは補聴器をさらに進化させています… SAM Audio のようなオープンモデルで大きな可能性が見えてきます。” – Achin Bhowmik, Starkey 社CTO & EVP Engineering

これらのパートナーシップは、オープンAIモデルがイノベーションを加速し、多様な分野で生活を向上させる方法を示しています。

同じ日のほかのニュース

一覧に戻る →

2025/12/19 4:08

We pwned X, Vercel, Cursor, and Discord through a supply-chain attack

## Japanese Translation: Discordの新しいドキュメントプラットフォーム、Mintlifyにおいて、`/_mintlify/_static/[subdomain]/[…route]` エンドポイントを介して配信される任意の静的ファイルに悪意あるJavaScriptを注入できるクロスサイトスクリプティング（XSS）脆弱性が判明しました。16歳の高校生研究者は、Discord のドメインを指すSVG内にコードを埋め込み、そのリンクを開いた際にスクリプトが実行されることで、このサプライチェーン脆弱性を検証し、Mintlify の全顧客に影響する可能性があることを示しました。この欠陥は「xyzeva」という友人によって独立して確認され、両者は協力してテストと開示を行いました。報告後、Discord はドキュメントの公開を2時間停止し、以前のプラットフォームに戻し、すべての Mintlify ルートを削除（インシデントリンク: https://discordstatus.com/incidents/by04x5gnnng3）し、Mintlify は Slack を通じて問題を修正しました。研究者たちは合計で約11,000ドルの報奨金（Discordから4,000ドル、残りは Mintlify から）を受け取りました。この事例は、Twitter (X)、Vercel、Cursor、Discord 自体など多くのハイプロファイルユーザーに脅威を与える可能性がある単一のサードパーティコンポーネントのリスクを浮き彫りにし、外部サービスへのより厳格な検証と広範なセキュリティ監査の必要性を強調しています。

2025/12/17 6:04

Texas is suing all of the big TV makers for spying on what you watch

## Japanese Translation: > **概要:** > テキサス州司法長官ケン・パクストンは火曜日にソニー、サムスン、LG、ヒセン、TCL を対象に訴訟を提起し、同社のテレビが自動コンテンツ認識（ACR）を使用して視聴者の視聴内容を秘密裏に記録していると主張した。ACR はテレビ番組、ストリーミングサービス、YouTube、セキュリティカメラ、Apple AirPlay/Google Cast、および HDMI 接続デバイスなど、多岐にわたるソースから視聴覚データを取得し、訴訟ではメーカーがユーザーに対して隠れたまたは曖昧な開示で ACR の起動を促すと主張されている。サムスンとヒセンは 500 ミリ秒ごとにスクリーンショットを取得し、パクストンはデータがユーザーの知識なしに各社へ送信され、ターゲティング広告のために販売されると述べている。訴訟はテキサス州詐欺取引慣行法（Deceptive Trade Practices Act）を引用し、民事罰金およびテキサス州居住者からの ACR データ収集・共有・販売の停止を求めている。パクストンはまた TCL とヒセンの中国との関係に懸念を示し、同社のテレビを「中国支援監視デバイス」と呼んでいる。訴訟は Vizio が 2017 年に FTC およびニュージャージー州と合意した 220 万ドルの和解金を参照しており、類似の主張があったことを示している。サムスン、ソニー、LG、ヒセン、および TCL はまだコメント要請に応じていない。パクストンは「テレビを所有することは、ビッグテックや外国対立勢力に個人情報を渡すことを意味しない」と述べ、プライバシー保護への重点を強調した。

2025/12/19 3:55

How China built its ‘Manhattan Project’ to rival the West in AI chips

## Japanese Translation: **改善された要約** 深圳の研究所が、極紫外線（EUV）リソグラフィを使用して高度な半導体チップを製造できるプロトタイプを完成させました。EUVリソグラフィは、人間の髪の数千倍薄い回路をシリコンウェーハに刻むプロセスです。この機械は工場全床面積のほぼすべてを占める規模で、2025年初頭に完成し、現在テスト中です。元ASMLエンジニアがオランダ企業のEUV装置を逆解析して構築したもので、西側企業が長らく独占してきた技術です。プロトタイプが意図通りに機能すれば、中国はより細密な回路を持つチップを製造できるようになり、AIシステムやスマートフォン、高度兵器の性能向上につながります。この進展は、西側の独占的半導体製造能力から重要な技術が移転する可能性があり、世界のサプライチェーンと競争構造を変えることになるでしょう。