MAI Thinking-1

2026/06/03 3:39

MAI Thinking-1

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

マイクロソフトは、Humanist Superintelligence イニシアチブ向けに開発された新たな中規模推論モデル MAI-Thinking-1 を発表しました。MAI-Thinking-1 は第 3 者による蒸留に依存しない点で従来のモデルとは異なり、清潔な商用ライセンスデータを専用で学習し、マイクロソフトの専有アクセラレーター上で動作することで、スタック全体における自己完結性を確保しています。アーキテクチャはスパース Mixture of Experts で構成され、アクティブパラメータは 35B、総パラメータ数は約 1T です。推論足跡を小型化すると同時に最先端のソフトウェア工学性能に匹敵し、ブラインド評価では Sonnet 4.6 よりも優位にあり、SWE-Bench Pro では Claude Opus 4.6 と「互角」の戦いをしています。モデルは優れた数学的推論能力を示し、AIME 2025 で 97.0% の精度、AIME 2026 で 94.5% の精度を達成しました。開発は「Hill-Climbing Machine」哲学に従っており、学習された能力を優先し、複雑なエージェンシーコーディングタスクのために決定論的で実行可能な学習環境を利用しています。

Text to translate:

Improved Summary: Microsoft has introduced MAI-Thinking-1, a new medium-sized reasoning model developed for its Humanist Superintelligence initiative. Unlike models relying on third-party distillation, MAI-Thinking-1 is trained exclusively on clean, commercially licensed data and runs on Microsoft's proprietary accelerators, ensuring self-sufficiency across the entire stack. Architecturally a sparse Mixture of Experts with 35B active parameters (and ~1T total), it offers a smaller inference footprint while matching top-tier software engineering capabilities; in blind evaluations, it is preferred over Sonnet 4.6 and performs "toe-to-toe" with Claude Opus 4.6 on SWE-Bench Pro. The model exhibits exceptional mathematical reasoning, achieving 97.0% accuracy on AIME 2025 and 94.5% on AIME 2026. Its development follows the "Hill-Climbing Machine" philosophy, which prioritizes learned capabilities over inherited ones and utilizes deterministic, executable training environments for complex agentic coding tasks.

本文

Microsoft AI 新モデル「MAI-Thinking-1」紹介:ヒルクライミングマシンによる推論能力の突破

本日、Microsoft AI より**中規模推論モデル「MAI-Thinking-1」**が発表されました。

本モデルは、同重量クラスで最も強力なモデルの一つであり、**「ヒューマニスト・スーパーインテリジェンス」**への取り組みの一歩を象徴しています。重要なのは単に何ができるか(性能)だけでなく、どのように構築されたか(由来)の両軸で捉えられます。


1. 「ヒルクライミングマシン」アプローチによる開発哲学

「ヒルクライミングマシン」とは、モデル開発の各要素を**「登りやすくする」**ことを目的とした共同設計のパイプラインです。時間をかけて能力が継続的かつ信頼性を持って向上する仕組みです。

3 つの主要な柱

  • 能力は「獲得されるもの」である
    • 受動的に得られる知能は習得が早いですが、実社会利用には不可欠な**制御可能性(steerability)**を欠きます。
    • 模倣モデル: 教師モデルの設計事項に縛られ、新しい状況への適応が困難です。
    • MAI-Thinking-1: 第三者モデルからの蒸留を行わずトレーニングされたため、本モデル自身が実際に手元のタスクを真に学ぶことを強いられています。
  • クリーンなデータの採用
    • 清潔で商用ライセンス取得可能なデータのみを使用しました。
    • AI 生成コンテンツ(AI 由来データ)は事前トレーニングから除外されています。
    • モデルの形成要因を把握できない場合、振る舞いの理解や真摯な改良は不可能です。
  • スタック全体における自己完結性
    • MSFT の自家製アクセラレーターとの共同設計から、強化学習フレームワークまで内製のトレーニングインフラストラクチャにリソースを注ぎ込んでいます。
    • エンドツーエンドのシステムを最適化し、我々のニーズに応える環境を構築しました。

2. 中規模モデルでありながら、堅実なソフトウェア工学性能

MAI-Thinking-1 はアクティブパラメータ 350 億、合計約1 トリリオンのパラメータを持つスパーサミキサー・オブ・エキスパート(Mixture of Experts モデル)です。大きなモデルに比べて推論時のフットプリントは小さく抑えられています。

ベンチマーク実績

  • SWE-Bench Pro:開発者にとって極めて重要なベンチマークにおいて、Claude Opus 4.6 と互角の戦力を示しました。
  • モデル規模が小さいことで、高度なコーディング支援ツールのデプロイ頻度や利用範囲(例外的タスク→日常的なワークフロー)を広げることができます。

トレーニング環境の特長

  • エージェント型コーディングに必要なトレーニング環境には多大な投資を行いました。
  • 各検証環境は確定論的かつ実行可能であり、実際のテストスイートによって評価されています。
  • トレーニング対象となる多段階タスク:
    • コードの読取・ファイル編集
    • テスト実行・エラー発生時の観測
    • 中間ミスの回復

3. 高度な数学的推論能力

MAI-Thinking-1 は、同重量クラスにおいて卓越した数学的および科学的推論能力を有しています。

スコア実績 (AIME)

  • AIME 2025: 97.0%
  • AIME 2026: 94.5%

これらの結果は、トレーニングループが自社のデータ・報酬関数・評価プロセスを通じて**「地面から上へ」**完全に登り、実質的な推論能力の向上を実現できていることを示しています。これにより、この知能は時間の経過とともに他のドメインにも一般化する可能性が開かれています。

同じ日のほかのニュース

一覧に戻る →

2026/06/03 3:47

MAI コード 1 のフラッシュ処理

## Japanese Translation: 以下の内容は、Key Points List に含まれていた欠落していた具体的な指標およびデータポイントを統合しつつ、明瞭さを維持した改良されたバージョンです。 **Improved Summary:** MAI-Code-1-Flash は、実稼働環境で使用される GitHub Copilot harness を直接トレーニングによって訓練され、現実世界の agentic タスクを処理するコーディング AI における画期的な進歩を表します。以前の手法では正確性と効率性は排他的なものとして扱われていましたが、本モデルはこれらがシームレスに共存できることを実証しました。適応的なソリューション長制御を活用し、推論の深さを動的に調整することで、単純なリクエストには簡潔に応答し、複雑な問題にはより多くの予算を割く仕組みです。その結果、開発者は競合製品である Claude Haiku 4.5 に比べて最大 60% も少ないトークンで有用な出力をより早期に受け取り、レイテンシと運用コストを大幅に削減できます。 同じプロダクション harness 内での多様なデータセット(SWE-Bench Verified、SWE-Bench Multilingual、SWE-Bench Pro、Terminal Bench 2)を含む評価が、優位性の高いパフォーマンスを確認しました。MAI-Code-1-Flash は、テストされたすべてのコアコーディングベンチマークにおいて Claude Haiku 4.5 を凌駕し、多様で現実世界のタスクである SWE-Bench Pro で注目される +16 ポイントのリード(51.2% vs. 35.2%)を達成しました。これらの結果は、MAI-Code-1-Flash を使用する場合、より高い正確性と更大なる効率がもはやトレードオフではないことを検証し、インタラクティブなコーディングワークフローを滑らかにしつつ、全体の生産性を最適化するためのトークン投資を実現します。

2026/06/03 5:30

BYD の車部品 CT 走査検査

## Japanese Translation: 主な洞察は、現代のペットボトルが数十年前進化する工学によって最適化されており、シュリンクラップ、積み重ね、粗悪な取扱いなどに対して耐え抜き、産業物流に適合するように設計されているにもかかわらず、開封した後は実用的な使用時間がわずか数秒しかないという点にあります。この耐久性のパラドックスは、長距離輸送での耐久性に大規模な投資を行いながら製品を瞬時に廃棄するという重大な非効率性を浮き彫りにしています。重量のあるガラス(コカ・コーラの 1899 年の製瓶;エビアンが数世紀の陶器製の壺の使用の後、1908年にガラスへ転換)からプラスチックへの進化は、コスト、安全性、重量削減によって推進されました。初期のプラスチック試作には、モンサント社の「Easy-Goer」アクリロニトリルコポリマー(1975 年)があり、それが漏出と動物毒性に関する懸念から 1977年にFDA にて禁止されました。これにより、デュポン社が Polyethylene Terephthalate(PET)を導入した 1967–1973 年へと道が開かれました。1970年代後半には、大型の 2リットルボトル用の PET 生産が始まり、初期デザインは最大 96 g の重量を持ち、接着剤を用いたベースと 0.3–0.4 mm の壁厚を特徴としていました。1990年代初頭の革新としては、接着剤を使用しない「Petaloid」ベースや、より薄い壁(例:アクアフィナで約 0.2 mm)を採用するものがあり、材料使用量を大幅に削減しました。それ以降のさらなる進歩—例えば、ニージャラ・ボトルリング社の Eco-Air デザインが厚さ 0.17 mm 以下を達成し、1998年から現在にかけてプラスチック使用量を 60%削減した事例や、半リットルボトルが 2000年代中期のバージョンと比較して 75%少ないプラスチックを使用した事例—は、継続的な効率向上を反映しています。これらの進歩は企業の戦略とも整合しており、ネスレ社がペリエ社を買収(1992年)や、ペプシ/コカ・コーラがアクアフィナとダサニを中〜後半の 1990年代に発売したことは、ソーダ販売の減少への対応として行われました。しかし環境上の課題は依然として残っています。リサイクルシステムが材料の分離や汚染管理—if 特に破砕されたガラスが多材料ストリームに混入し、新しい容器にとって使用不可能になる—を失敗した場合、これらの良質に設計されたボトルは多くが埋め立て地に行き着いたり、下位利用されたりします。将来の進歩には、スマートなデザイン、厳格な材料分離プロトコル、改善されたリサイクルインフラストラクチャを通じて、サプライチェーンの耐性と廃棄物削減を調和させる必要があります。 ## Text to translate: The primary insight is that modern water bottles represent decades of advanced engineering optimized for robust industrial logistics—surviving shrink-wrapping, stacking, and rough handling—even though they have only seconds of practical use once opened. This durability paradox highlights a major inefficiency: investing heavily in long-haul resilience while discarding the product instantly. The evolution from heavy glass (Coca-Cola's 1899 bottling; Evian's switch to glass in 1908 after decades of earthenware jugs) to plastics was driven by cost, safety, and weight reductions. Early plastic attempts included Monsanto's "Easy-Goer" acrylonitrile copolymer (1975), which faced FDA bans in 1977 due to leaching and animal toxicity concerns, paving the way for DuPont's Polyethylene Terephthalate (PET) introduced around 1967–1973. By the late 1970s, PET production for large two-liter bottles began, with early designs weighing up to 96 g, featuring glued bases and wall thicknesses of 0.3–0.4 mm. Innovations in the early 1990s, such as "Petaloid" bases that eliminated glue and thinner walls (e.g., Aquafina at ~0.2 mm), cut material use significantly. Further advances since then—such as Niagara Bottling's Eco-Air designs under 0.17 mm thickness, which achieved a 60% plastic reduction from 1998 to today, and half-liter bottles using 75% less plastic than mid-2000s versions—reflect ongoing efficiency gains. These advances also align with corporate strategy: Nestlé's acquisition of Perrier (1992), and Pepsi/Coke launching Aquafina and Dasani in the mid-to-late 1990s, all in response to declining soda sales. Yet environmental challenges remain. If recycling systems fail to separate materials or manage contamination—especially with crushed glass mixed into multimaterial streams that become unusable for new containers—these well-engineered bottles often end up landfilled or downcycled. Future progress must reconcile supply chain resilience with waste reduction through smarter design, stricter material separation protocols, and improved recycling infrastructure.

2026/06/03 4:27

「グメールが私をおろかに思っている」と感じたので、退社しました。

## Japanese Translation: 著者は、嫌悪感と軽慢さを感じてしまう強制的な AI 機能のため、16 年使用してきた Gmail アカウントを恒久離脱することにした。具体的な問題は、不要なメッセージの要約、自動補填された返信文、そして「メールを書いてください」、「Tab で改善する」など、ユーザー自身がメールを作成できないか、あるいは受信者への時間の価値が低いことを示唆するような常駐的なプロンプト(促し)が含まれる。一部の AI 機能はオフにすることもできるが、それを行うことで自動的なスレッド分類といった長く使い続けられ有用な機能を犠牲にせざるを得なくなる。著者は、これらの強制的な機能が真のユーザーニーズを満たすためではなく、言語モデルの利用指標を人為的に高めるための意図的な戦術であることを疑っている。Google の従来からある安定したサービスや、fediverse を通じて独自ドメインと接続して使用している Fastmail での良好な第一印象とは裏腹に、著者はこの移行を Google エコシステムからの故意の断絶——単なるクライアントの切り替えではない——と捉えている。著者は連絡先を移す予定だが、歴史のあるメールスレッドはインポートせず、「不快な経験」として記述する後に「きれいな決別」を図る打算である。この状況はより広範な懸念を示している:技術企業は、ユーザーの自律性や長期的な信頼よりもエンゲージメントデータを優先することで、忠実な顧客を失うリスクを抱えている。 ## Text to translate: Improved Summary: The author is permanently leaving their 16-year-old Gmail account due to mandatory AI features they find intrusive and disrespectful. Specific issues include unsolicited message summaries, pre-filled replies, and persistent prompts ("help me write," "Tab to improve") that imply the user cannot compose emails themselves or that recipients do not deserve their time. While some AI features can be disabled, doing so forces users to sacrifice long-standing, useful functions like automatic thread categorization. The author suspects these unsolicited features are intentional tactics to artificially inflate language model usage metrics rather than serve genuine user needs. Despite Google's historically stable service and positive first impressions with Fastmail (which they have connected their custom domain to and use via the fediverse), the author views this move as a deliberate break from Google's ecosystem—not merely a client switch. They plan to migrate their contacts but will not import historical email threads, seeking a "clean break" after what they describe as a "bad taste" experience. The situation highlights a broader concern: tech companies risk losing loyal customers by prioritizing engagement data over user autonomy and long-term trust.

MAI Thinking-1 | そっか~ニュース