
2026/04/09 1:01
**ムーズ・スパーク:個人向けスーパーインテリジェンスへの拡大**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
## 改良された概要 MetaのSuperintelligence LabsはMuse Sparkを発表しました。これはMuseファミリー初のマルチモーダル推論モデルで、ツール使用、視覚的思考連鎖、および「Contemplating mode」を備えています。このモードは複数エージェントを統括して並列推論を実現します。Muse Sparkは現在meta.aiとMeta AIアプリで利用可能で、選択されたユーザーに対してプライベートAPIのプレビューも公開されています。 Muse Sparkは競争力ある性能を発揮します:Humanity’s Last Examで58%、FrontierScience Researchで38%を達成し、Gemini Deep ThinkやGPT Proなどのフロンティアモデルに匹敵します。マルチモーダル知覚・推論、健康関連インタラクティブディスプレイ(例:栄養内容、筋肉活動)、および数独、コーヒーマシンチュートリアル、パーソナライズド栄養アドバイス、ヨガ指導などのタスクに対するユーザーカスタマイズ可能なプロンプトで優れた性能を示します。 9か月にわたる事前学習はLlama 4 Maverickと比較して計算量を10倍削減しつつ効率性を向上させました。強化学習スケーリングでは、訓練データでのpass@1/16が対数線形に増加し、保留評価でも一貫した精度を示すことで予測可能な汎化能力を示しています。テスト時推論は思考時間ペナルティとマルチエージェント統括を活用し、RLは初期の長い思考フェーズ後に推論トークンを圧縮するようモデルを訓練し、遅延を追加せずに性能を向上させます。 安全性テストはMetaのAdvanced AI Scaling Frameworkに従って実施されました。生物学的/化学兵器など高リスク領域で強力な拒否行動が確認され、サイバーセキュリティや制御喪失シナリオでは自律能力を持たず、すべてのフロンティアリスクカテゴリで安全マージンが保たれています。Apollo Researchのノーランチチェックポイントは評価認識率が高く、有害な影響がないことを確認しました。 戦略的投資は研究・訓練・インフラストラクチャにわたり、Hyperionデータセンターなどを含み、個人スーパーインテリジェンスへのさらなるスケーリングを支援します。Metaは予測可能で効率的な軌道に沿って、ますます高度なモデルを公開する計画です。
本文
本日の発表 – Muse Spark
Muse Spark は Meta Superintelligence Labs が新たに構築した「Muse」シリーズの最初のモデルです。
ネイティブマルチモーダル推論 モデルであり、以下をサポートします。
- ツール使用
- ビジュアルチェーン・オブ・ソート(思考過程)
- マルチエージェント調整
これは私たちの AI スタックを一から見直す開始点となり、本日より meta.ai と Meta AI アプリで利用可能です。選ばれたユーザー向けにプライベート API プレビューも開放予定です。
個人スーパーインテリジェンスへの機能
Muse Spark は次の分野で競争力のある性能を発揮します。
- マルチモーダル知覚
- 推論
- 健康関連タスク
- エージェンシー操作
現在の投資は、長期的なエージェントシステムやコーディングワークフローといったギャップ解消に集中しています。より大きなモデルを開発中であり、その結果が私たちのスタックがスケールしやすいことを確認しています。
新機能 – 省察モード
省察モード は複数エージェントが並列に推論するよう調整し、Muse Spark が Gemini Deep Think や GPT Pro といった最先端の極限推論モードと競合できるようにします。大きな向上を実現しています。
| タスク | スコア |
|---|---|
| Humanity’s Last Exam | 58 % |
| FrontierScience Research | 38 % |
アプリケーション
-
マルチモーダルインタラクション
ドメイン横断で視覚情報を統合するよう設計。- ビジュアル STEM クイズ、エンティティ認識、ローカリゼーションで高い性能。
- ミニゲームや動的な家電トラブルシューティングなどの対話型体験を可能にします。
-
ヘルスサポート
1,000 名以上の医師と協力し、事実に基づく包括的健康応答用データを収集。- 栄養や運動中の筋肉活性化などを説明するインタラクティブディスプレイを生成。
-
プロンプト例(ウェブ対話型)
- Sudoku ゲームが Web 上で遊べる。
- ラテ作りのチュートリアル:ステップにカーソルを合わせるとコンポーネントの境界ボックスがハイライト。
- 高コレステロールのペスカタリアン向けパーソナライズド食品推奨:緑点=推奨食品、赤点=非推奨で、ホバーすると健康スコア・カロリー・マクロを表示。
- ヨガ指導:筋肉伸展と難易度評価を並べて比較。
スケーリング軸
モデルの機能は次の三つの軸に沿って予測可能に拡張されます。
| 軸 | 重点 | 主な発見 |
|---|---|---|
| プレトレーニング | コアマルチモーダル理解と推論 | アーキテクチャ・最適化・データを再構築し、Llama 4 Maverick の10倍以上のコンピュートで同等性能を達成。 |
| 強化学習 (RL) | コンピュートを使って能力を増幅 | Pass@1 / Pass@16 がログ線形に伸び、評価セットでは精度が向上。 |
| テスト時推論 | 推論トークンとマルチエージェント調整の効率的利用 | フェーズ転換:長い思考 → トークン圧縮 → 強化された性能。マルチエージェント思考は遅延増加なしに優れた結果をもたらす。 |
安全性
Advanced AI Scaling Framework に従い、広範な安全評価を実施しました。
- 生物学的/化学兵器など高リスク領域での強力な拒否行動
- サイバーセキュリティや制御喪失シナリオにおいて自律性・危険性がない
- 「評価認識」を示し、整合性トラップを検知。現在はブロッキング懸念はありませんが、さらなる研究が必要です。
完全な安全結果は近日公開予定の Safety & Preparedness Report に掲載されます。
結論
Muse Spark は個人スーパーインテリジェンスへ向けた予測可能で効率的なスケーリング軌道を示しています。今後もこの経路上でさらに高度なモデルを共有できることを楽しみにしています。