
2026/06/03 3:39
MAI Thinking-1
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
マイクロソフトは、Humanist Superintelligence イニシアチブ向けに開発された新たな中規模推論モデル MAI-Thinking-1 を発表しました。MAI-Thinking-1 は第 3 者による蒸留に依存しない点で従来のモデルとは異なり、清潔な商用ライセンスデータを専用で学習し、マイクロソフトの専有アクセラレーター上で動作することで、スタック全体における自己完結性を確保しています。アーキテクチャはスパース Mixture of Experts で構成され、アクティブパラメータは 35B、総パラメータ数は約 1T です。推論足跡を小型化すると同時に最先端のソフトウェア工学性能に匹敵し、ブラインド評価では Sonnet 4.6 よりも優位にあり、SWE-Bench Pro では Claude Opus 4.6 と「互角」の戦いをしています。モデルは優れた数学的推論能力を示し、AIME 2025 で 97.0% の精度、AIME 2026 で 94.5% の精度を達成しました。開発は「Hill-Climbing Machine」哲学に従っており、学習された能力を優先し、複雑なエージェンシーコーディングタスクのために決定論的で実行可能な学習環境を利用しています。
Text to translate:
Improved Summary: Microsoft has introduced MAI-Thinking-1, a new medium-sized reasoning model developed for its Humanist Superintelligence initiative. Unlike models relying on third-party distillation, MAI-Thinking-1 is trained exclusively on clean, commercially licensed data and runs on Microsoft's proprietary accelerators, ensuring self-sufficiency across the entire stack. Architecturally a sparse Mixture of Experts with 35B active parameters (and ~1T total), it offers a smaller inference footprint while matching top-tier software engineering capabilities; in blind evaluations, it is preferred over Sonnet 4.6 and performs "toe-to-toe" with Claude Opus 4.6 on SWE-Bench Pro. The model exhibits exceptional mathematical reasoning, achieving 97.0% accuracy on AIME 2025 and 94.5% on AIME 2026. Its development follows the "Hill-Climbing Machine" philosophy, which prioritizes learned capabilities over inherited ones and utilizes deterministic, executable training environments for complex agentic coding tasks.
本文
Microsoft AI 新モデル「MAI-Thinking-1」紹介:ヒルクライミングマシンによる推論能力の突破
本日、Microsoft AI より**中規模推論モデル「MAI-Thinking-1」**が発表されました。
本モデルは、同重量クラスで最も強力なモデルの一つであり、**「ヒューマニスト・スーパーインテリジェンス」**への取り組みの一歩を象徴しています。重要なのは単に何ができるか(性能)だけでなく、どのように構築されたか(由来)の両軸で捉えられます。
1. 「ヒルクライミングマシン」アプローチによる開発哲学
「ヒルクライミングマシン」とは、モデル開発の各要素を**「登りやすくする」**ことを目的とした共同設計のパイプラインです。時間をかけて能力が継続的かつ信頼性を持って向上する仕組みです。
3 つの主要な柱
- 能力は「獲得されるもの」である
- 受動的に得られる知能は習得が早いですが、実社会利用には不可欠な**制御可能性(steerability)**を欠きます。
- 模倣モデル: 教師モデルの設計事項に縛られ、新しい状況への適応が困難です。
- MAI-Thinking-1: 第三者モデルからの蒸留を行わずトレーニングされたため、本モデル自身が実際に手元のタスクを真に学ぶことを強いられています。
- クリーンなデータの採用
- 清潔で商用ライセンス取得可能なデータのみを使用しました。
- AI 生成コンテンツ(AI 由来データ)は事前トレーニングから除外されています。
- モデルの形成要因を把握できない場合、振る舞いの理解や真摯な改良は不可能です。
- スタック全体における自己完結性
- MSFT の自家製アクセラレーターとの共同設計から、強化学習フレームワークまで内製のトレーニングインフラストラクチャにリソースを注ぎ込んでいます。
- エンドツーエンドのシステムを最適化し、我々のニーズに応える環境を構築しました。
2. 中規模モデルでありながら、堅実なソフトウェア工学性能
MAI-Thinking-1 はアクティブパラメータ 350 億、合計約1 トリリオンのパラメータを持つスパーサミキサー・オブ・エキスパート(Mixture of Experts モデル)です。大きなモデルに比べて推論時のフットプリントは小さく抑えられています。
ベンチマーク実績
- SWE-Bench Pro:開発者にとって極めて重要なベンチマークにおいて、Claude Opus 4.6 と互角の戦力を示しました。
- モデル規模が小さいことで、高度なコーディング支援ツールのデプロイ頻度や利用範囲(例外的タスク→日常的なワークフロー)を広げることができます。
トレーニング環境の特長
- エージェント型コーディングに必要なトレーニング環境には多大な投資を行いました。
- 各検証環境は確定論的かつ実行可能であり、実際のテストスイートによって評価されています。
- トレーニング対象となる多段階タスク:
- コードの読取・ファイル編集
- テスト実行・エラー発生時の観測
- 中間ミスの回復
3. 高度な数学的推論能力
MAI-Thinking-1 は、同重量クラスにおいて卓越した数学的および科学的推論能力を有しています。
スコア実績 (AIME)
- AIME 2025: 97.0%
- AIME 2026: 94.5%
これらの結果は、トレーニングループが自社のデータ・報酬関数・評価プロセスを通じて**「地面から上へ」**完全に登り、実質的な推論能力の向上を実現できていることを示しています。これにより、この知能は時間の経過とともに他のドメインにも一般化する可能性が開かれています。