
2026/04/21 0:28
キミ K2.6:オープンソースコード開発の更なる発展
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
アリババのKimi K2.6 は、Kimicom、Kimiアプリ、API、およびKimi Codeを通じて正式にオープンソース化され、最先端のコーディング能力、長期実行機能、エージェントスウォーム機能を備え、人工知能分野における画期的な飛躍を遂げました。内部ベンチマークにおいて、K2.6は前世代のK2.5モデルに対して大幅な改善を示しており、コーディング性能で+15%、コード生成精度で+12%、長期コンテキスト安定性で+18%、外部ツール呼び出しの成功率は96.60%と記録されています。このモデルは複雑な自律タスクにおいて顕著な信頼性を発揮し、Claw Evalベンチマーク(得点:pass@3が80.9、pass^3が62.3)で業界大手であるGPT-5.4、Claude Opus 4.6、Gemini 3.1 Proを上回っています。さらに、モニタリングやインシデント対応などのタスクにおいて、人間の介入なしに最大5日間の自律動作を維持できるなど、効率が改善された複雑なワークフローの処理にも成功しています。具体的なケーススタディでは、Zigを用いてマック上にQwen3.5-0.8Bモデルを12時間にわたってローカル展開し(スループットは徐々に向上し~193トークン/秒)、8年ほど前に開発された金融マッチングエンジン「exchange-core」を見直し、13時間のセッションで大幅な性能向上を実現した事例などが確認されています。Kimi K2.6は長期視野のコーディングタスクでも優れ、Rust、Go、Pythonといったプログラミング言語全体にわたり、フロントエンドデザインやDevOpsなどさまざまなタスクにおいてアーキテクチャ的整合性を保ちます。エージェントスウォーム評価では、BrowseCompベンチマークでK2.5(74.9%)に対し86.3%の得点を記録し、複数のステップを含むワークフローにおいて異質なエージェントを効果的に調整する能力を示しました。アーキテクチャは横方向スケーリングを300サブエージェントまでサポートしており、同時に4,000回の協調ステップを実行可能で、前世代に比べてレイテンシを削減しています。さらに、K2.6はOpenClawおよびHermesとの統合により能動的なエージェントの実現を可能にし、特にNext.jsフロントエンドデザインにおいて、構造化されたレイアウトと美的なヒーローセクションを生成することで、K2.5に対して品質が50%以上向上しています。また、高品質なドキュメント(PDF、スプレッドシート、スライド、Wordドキュメント)を再利用可能な「スキル」に変換できる機能があり、その構造とスタイルのDNAを将来的な自動化に活用できます。ベンチマーク結果は、思考モード有効、コンテキスト長さ262,144トークン、temperature=1.0、top-p=1.0の条件下で報告されており、記載のある項目は独立した実行の平均値に基づいています。最終的に、K2.6はマルチエージェントシステムにおける信頼性とスケーラビリティの新たな基準を確立し、高価なクローズドソースサブスクリプションに依存せずに強力なAIへのアクセスを民主化します。
本文
キミ K2.6 をお試しください。我々は、最先端のコーディング能力、長期スパン実行、エージェント・スワーム機能を備えた最新モデル「キミ K2.6」を開源いたしました。キミ K2.6 は現在、ki mi.com、キミ アプリ、API、およびキミ コードを通じてご利用いただけます。
汎用型エージェント
- Humanity's Last Exam (Full) / ツール付き
- BrowseComp
- DeepSearchQA (F1 スコア)
- Toolathlon
- OSWorld-Verified
- CodingTerminal-Bench 2.0 (Terminus-2)
- SWE-Bench Pro
- SWE-Multilingual
- Visual AgentsMathVision / Python 付き
- V* / Python 付き
キミ K2.6 は、長期スパンのコーディングタスクにおいて顕著な改善を示しています。特にプログラミング言語(Rust, Go, Python など)やタスク領域(フロントエンド、DevOps、パフォーマンス最適化など)に対して、信頼性の高い汎化性能を発揮します。内部コーディングベンチマーク「キミ コード・ベンチ」では、多岐にわたる複雑なエンドツーエンドタスクを網羅しており、Kimi K2.5 よりもきわめて大きな改善を達成しました。
キミ K2.6 は、複雑なエンジニアリングタスクにおいて強力な長期スパンコーディング能力を発揮します:
- Qwen3.5 のローカルデプロイ: キミ K2.6 は Mac 上で Qwen3.5-0.8B モデルをダウンロード・デプロイすることに成功しました。ニッチなプログラミング言語である Zig においてモデル推論を実装・最適化し、分布外汎化性能の卓越したレベルを示しました。4,000 件以上のツールコールにわたり、12 時間以上連続して実行され、14 の反復処理を通じて、throughput は約 15 トークン/秒から約 193 トークン/秒へと劇的に向上し、最終的には LM Studio よりも約 20% 高速な動作を実現しました。
- Exchange-Core の大規模改修: キミ K2.6 は、8 ヵ年間稼働していたオープンソースの金融マッチングエンジン「exchange-core」を自律的に大規模に再構築しました。13 時間の執行期間を通じて、モデルは最適化戦略を 12 パターン反復し、4,000 行以上のコードを正確に修正するための 1,000 件以上のツールコールを開始しました。専門家としてのシステムアーキテクトとして振る舞い、CPU および割り当てに関する flame graph を分析して潜在するボトルネックを特定し、大胆にもコアスレッドのトポロジを見直しました(4ME+2RE から 2ME+1RE へ)。すでにパフォーマンス限界に近く動作していたエンジンにおいて、キミ K2.6 は中程度の through put で 185% の飛躍的向上(0.43 MT/s から 1.24 MT/s)およびパフォーマンス throughput では 133% の増加(1.23 MT/s から 2.86 MT/sへ)を達成しました。
ベータテストにおいて、K2.6 はエンタープライズ評価における長期スパンコーディングタスクにおいて良好な性能を発揮しています(アルファベット順):
- キミ K2.6 の進化は印象的です。最先端のクローズドソースモデルと同等レベルのコーディングタスクに優れ、サードパーティ製フレームワークへの深い理解に基づいた強力なツール呼び出し品質を提供します。キミ K2.6 の優れた信頼性は、複雑かつ長期スパンのエンジニアリングタスクにおける優秀な選択肢となります。
- キミ K2.6 は、特に長期スパンのエージェントスタイルコーディングワークフローにおいて、オープンソースモデルの新たな基準を设定しています。複雑で多段階のタスクに対しては、より強力な指示従順性と一貫して高いコード品質を発揮します。通常のモデルをはるかに超える安定性を持って長時間のコーディングセッションを維持することにも成功しており、また通常の開発者にとって多大な時間がかかるとされる深い非明らかなバグを見出すこともできます。全体として、K2.6 は信頼性の高いコーディングの新たな基準を設定しています。
- コドブディによる内部評価において、キミ K2.6 は K2.5 よりも顕著な改善を示しました:コード生成精度は 12% 向上、長文脈安定性は 18% 向上し、ツール呼出し成功率は 96.60% に達しました。より強力な推論能力と一貫した出力品質により、CodeBuddy WorkBuddy における信頼性あるユーザー体験を確保する堅牢なサポートを提供しています。
- K2.6 は、我々のベンチマーク(+15%)および並列比較の両面で、K2.5 の明確な改善です。指示従順性、より徹底的な探索と推論、コーディングエラーやハックの使用頻度の減少において優れているようです。
- キミ K2.6 のリリースにより、オープンソースモデルがまた飛躍を遂げたことに大変喜ばしく感じております。これは高リスクなエージェントワークフローにおける大きな進歩を象徴します。最も影響の大きい改善は、長期スパンの信頼性と指示従順性にあります。K2.6 は、 prolonged コーディングセッションにおいてアーキテクチャ的完全性を維持する点で秀でており、「すべての爪」のような自律型エージェントパイプラインのための安定した基盤となります。長期文脈タスクにおいて K2.5 よりも測定可能な飛躍を示し、複雑な推論において最先端の性能を達成しています。
- Hermes エージェントを通じて K2.6 を事前に試したところ、ツール呼び出しとエージェントループが明らかに緊密で感覺し、コーディング能力は明確に向上しており、創造的範囲には驚かされました。キミとのハッカソン開催に向けて非常に興奮しております。キミチームは期待を上回る成果を続けております!
- キミ K2.6 は、コストのわずかな分に対して SOTA レベルのパフォーマンスを提供します。コードベース全体における長期文脈タスクへの適応力に優れており、常時稼働型エージェント「キロクロー」を支えるための日常的な作業にも極めて適合しています。
- キミ K2.6 はオープンソースモデルの新たな基準を挙げています。コーディングにおいて秀で、特に OpenClaw や Hermes といったエージェントツールにおいては卓越しています。初期テストにおいて、驚異的な安定性を保った長期多段階セッションを持続できます。Ollama のすべての統合をそのまま動作させ、開発者がこれをどのように活用するか楽しみです。
- 「OpenCode」内では、キミ K2.6 は極めて信頼性の高い実績を示しました。タスクの分解アプローチとツール呼び出しは安定しており一貫しています。タスク要件への鋭敏な把握と、より streamline な多段階操作により、反復的なオーバーヘッドを効果的に最小限に抑え、滑らかで信頼性の高いエンドツーエンド体験を実現しています。
- キミ K2.6 は Qoder の内部評価で強力な性能を発揮し、K2.5 において顕著な進歩を示しました。具体的には、ツールの呼出し頻度とモデル呼出が増加しており、これはタスク執行中のモデルの能動性と知能性の大幅な向上を反映しています。ツール呼び出しにおけるこの高まった自主性は、モデルが開発者の意図をより積極的に把握し、文脈を自動的に完了させることを可能にし、ユーザーの中断や待機時間を最小化します。
- 我々の開発者が最も注目する能力において、K2.6 は K2.5 よりも大きな成果を示しています:特に Next.js ベンチマークでは 50% 以上もの向上があり、プラットフォーム上でトップクラスのモデル群に位置付けられています。コスト対性能の比率と組み合わせると、AI Gateway によるエージェントコーディングやフロントエンド生成において魅力的な選択肢となります。開発者コミュニティへ提供できることを楽しみにしております。
コーディング主導のデザイン 強力なコーディング能力に基づき、キミ K2.6 は単純なプロンプトを完全なフロントエンドインターフェースに変換し、美的なヒーローセクションやインタラクティブ要素、スクロールトリガー効果を含む豊かなアニメーションなどを備えた構造化されたレイアウトを生成します。画像および動画生成ツールの活用において高い習熟度を有するため、視覚的に統一性のあるアセットの生成をサポートし、より質が高く顕著なヒーローセクションの実現に貢献します。
さらに、キミ K2.6 は静的フロントエンド開発を超えて、認証からユーザーインタラクション、データベース操作に至るまでを-spanning する単純なフルスタックワークフローへも拡張され、トランザクションログ記録やセッション管理などの軽量ユースケースに対応します。
内部で「キミ デザイン・ベンチ」という独自ベンチマークを設定し、4 つのカテゴリ(視覚入力タスク、ランディングページ構築、フルスタックアプリケーション開発、一般クリエイティブプログラミング)に分類しました。Google AI Studio と比較すると、このすべてのカテゴリで有望な結果を示しており、高い性能を発揮しています。
以下は、単一のプロンプトから生成された K2.6 エージェントの例(事前設定されたハネスとツール付き)です:
- 審美的魅力: 豊かなインタラクションを備えた美しいフロントエンドデザイン
- 機能性: 組み込みデータベースと認証機能を有する
- ツールの活用: 画像・動画生成ツールを用いて洗練された Web サイトを構築
エージェント・スワーム、高度な進化 スケールアウト不僅の向上。エージェント・スワームは、自律的に作成されたドメイン特化型エージェントが並列に実行する不均質なサブタスクへとタスクを動的に分解します。
K2.5 エージェント・スワームの研究プレビューに基づき、キミ K2.6 エージェント・スワームは、エージェント・スワーム体験において質的な飛躍を遂げています。広範囲な検索と深い研究を組み合わせたもの、大規模ドキュメント分析と長文執筆を組み合わせたもの、多形式コンテンツ生成を並列で実行するものなど、補完的なスキルを持つ不均質なエージェントをシームレスに連携させます。この組み合わせ的な知能により、スワームは単一の自律的なランニングで、ドキュメント、Web サイト、スライド、エクセルシートにわたるエンドツーアウトプットを提供します。
アーキテクチャは 300 のサブエージェントを横方向にスケールさせ、4,000 の協調ステップを同時に実行できます。K2.5 の 100 サブエージェントと 1,500 ステップから的大幅拡大です。この巨大な並列化により、エンドツーエンドのレイテンシが根本的に削減され、出力品質が大幅に向上するとともに、エージェント・スワームの運用ขอบ界が拡大します。
また、PDF、エクセルシート、スライド、Word ドキュメントなどのあらゆる高品質なファイルを「スキル」に変換することも可能です。キミ K2.6 はドキュメントの構造的・スタイル的な DNA を把握し維持するため、将来のタスクでも同様の品質とフォーマットを再現できます。
例:
- 100 のグローバル半導体資産にわたり 5 つの定量的戦略を設計・実行し、マッキンゼー様式のスライド資料を再利用可能なスキルとして抽出し、詳細なモデリングエクセルシートおよび総合的な役員向けプレゼンテーションを提供しました。
- 豊富なビジュアルデータを含む天文学論文を高品質なアストロフィジクス論文から再利用可能な学術的スキルに変換し、その推論フローと可視化手法を導出し、40 ページ・7,000 語の研究論文、20,000 件以上のエントリーを持つ構造化されたデータセット、14 点の天文学レベルのチャートを生成しました。
- アップロードされた履歴書に基づき、カリフォルニア州の関連する 100 つの役割にマッチングするため 100 のサブエージェントを起動し、機会の構造化されたデータセットおよび 100 通完全にカスタマイズされた履歴書を交付しました。
- Google マップから公式 Web サイトのないロサンゼルの小売店舗 30 社を特定し、それぞれに対応した高コンバージョンランディングページを生成し、機会発見とエンドツーエンドの実行を実証しました。
能動的エージェント K2.6 は、OpenClaw や Hermes など、複数のアプリケーションを横断して連続的に 24/7 で動作する自律的・能動的なエージェントにおいて強力な性能を発揮します。単なるチャットベースのインタラクションとは異なり、これらのワークフローでは AI がスケジュールを能動的に管理し、コードを実行し、クロスプラットフォーム操作をオーケストレーションすることが、永続的なバックグラウンドエージェントとして必要です。
我々の RL インフラチームは、K2.6 をバックボーンとしたエージェントを 5 日間自律的に運用させ、監視、インシデント対応、システム運営を管理させました。これは、持続的文脈、マルチスレッドタスク処理、アラートから解決までの全サイクルの実行を実証しています。以下が K2.6 のワークログ(機密情報を削除した匿名化版)です:
- K2.6 エージェントトレース — 5 日間の自律エンジニアリングワークログ
キミ K2.6 は、実世界における信頼性において測定可能な向上をもたらします:より正確な API 解釈、安定した長時動作性能、および広範な研究タスクにおける強化された安全性意識です。
性能の向上は、我々の内部「クラウベンチ(Claw Bench)」によって定量化されています。この評価スイートは以下の 5 つのドメインを網羅しています:コーディングタスク、IM エコシステム統合、情報検索・分析、スケジュールタスク管理、メモリ利用率。すべての指標において、キミ K2.6 はタスク完了率とツール呼出精度でキミ K2.5 を大幅に上回っており、特に人間の監視なしで持続的自律動作を必要とするワークフローにおいては顕著です。
自带エージェント(Bring Your Own Agents) キミ K2.6 の堅牢なオーケストレーション能力に基づき、K2.6 は貴社の能動的エージェントを「クラウグループ」としての研究プレビュー段階に拡張しています——これはエージェント・スワームアーキテクチャの新しいインスタンスです。
クラウグループは開放的で不均質なエコシステムを受け入れます:複数のエージェントと人間が真なる協力者として動作します。ユーザーはあらゆるデバイスからエージェントをオンボードでき、あらゆるモデルを実行でき、それぞれ独自の特殊なツールキット、スキル、永続的文脈メモリを持ちます。ローカルラップトップ、モバイルデバイス、クラウドインスタンスで展開されている場合であっても、これらの多様なエージェントは共有の作業空間にシームレスに統合されます。
このスワームの中心には、Kimi K2.6 が適応的なコーディネーターとして機能します。特定のスキルプロファイルと利用可能なツールに基づき、タスクをエージェントに動的にマッチし、能力適合性を最適化します。エージェントが失敗または停滞した際に、コーディネーターは中断を検知し、自動的にタスクの再割り当てやサブタスクの再生成を行い、成果物の全ライフサイクル(開始から検証まで完了)を能動的に管理します。
また、クラウグループ内の K2.6 動力型エージェントへ感謝を表します——我々は自社のエージェントマーケティングチームで人間とエージェントのワークフローを実践上で洗練させ、「自らを食べる(dogfooding)」を行ってきました。クラウグループを活用し、エンドツーエンドコンテンツ生成とキャンペーン発売を実施し、デモメイカー、ベンチマークメイカー、ソーシャルメディアエージェント、ビデオメイカーなどの特化型エージェントが連携しています。K2.6 はプロセスを調整し、中間結果の共有を可能にし、アイデアを一貫性のある完全パッケージ化された成果物に変換します。
我々は、AI に質問したり課題を割り当てたりする段階を超え、人間と AI が真なるパートナーとして協力する新たなフェーズへと移行しています。強みを組み合わせて問題を共同解決します。クラウグループは、「私のエージェント」「あなたのエージェント」「我们的チーム」という境界線がシームレスに融解し、協力システムへと変化する未来への我々の最新な取り組みを象徴します。
ベンチマークテーブル
| ベンチマーク | Kimi K2.6 | GPT-5.4 (xhigh) | Claude Opus 4.6 (max effort) | Gemini 3.1 Pro (thinking high) | Kimi K2.5 Agentic |
|---|---|---|---|---|---|
| HLE-Full w/ tools | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
| BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 | 74.9 |
| BrowseComp (agent swarm) | 86.3 | — | — | — | 78.4 |
| DeepSearchQA (f1-score) | 92.5 | 78.6 | 91.3 | 81.9 | 89.0 |
| DeepSearchQA (accuracy) | 83.0 | 63.7 | 80.6 | 60.2 | 77.1 |
| WideSearch (item-f1) | 80.8 | — | — | — | 72.7 |
| Toolathlon | 50.0 | 54.6 | 47.2 | 48.8 | 27.8 |
| MCPMark | 55.9 | 62.5* | 56.7* | 55.9* | 29.5 |
| Claw Eval (pass@3) | 62.3 | 60.3 | 70.4 | 57.8 | 52.3 |
| Claw Eval (pass@1) | 80.9 | 78.4 | 82.4 | 82.9 | 75.4 |
| APEX-Agents | 27.9 | 33.3 | 33.0 | 32.0 | 11.5 |
| OSWorld-Verified | 73.1 | 75.0 | 72.7 | — | 63.3 |
| CodingTerminal-Bench 2.0 (Terminus-2) | 66.7 | 65.4* | 65.4 | 68.5 | 50.8 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
| SWE-Bench Multilingual | 76.7 | — | 77.8 | 76.9* | 73.0 |
| SWE-Bench Verified | 80.2 | — | 80.8 | 80.6 | 76.8 |
| SciCode | 52.2 | 56.6 | 51.9 | 58.9 | 48.7 |
| OJBench (python) | 60.6 | — | 60.3 | 70.7 | 54.7 |
| LiveCodeBench (v6) | 89.6 | — | 88.8 | 91.7 | 85.0 |
推論・知識ベンチマーク
| ベンチマーク | Kimi K2.6 | GPT-5.4 (xhigh) | Claude Opus 4.6 (max effort) | Gemini 3.1 Pro (thinking high) | Kimi K2.5 Agentic |
|---|---|---|---|---|---|
| HLE-Full | 34.7 | 39.8 | 40.0 | 44.4 | 30.1 |
| AIME 2026 | 96.4 | 99.2 | 96.7 | 98.3 | 95.8 |
| HMMT 2026 (Feb) | 92.7 | 97.7 | 96.2 | 94.7 | 87.1 |
| IMO-AnswerBench | 86.0 | 91.4 | 75.3 | 91.0* | 81.8 |
| GPQA-Diamond | 90.5 | 92.8 | 91.3 | 94.3 | 87.6 |
| VisionMMMU-Pro | 79.4 | 81.2 | 73.9 | 83.0* | 78.5 |
| MMMU-Pro w/ python | 80.1 | 82.1 | 77.3 | 85.3* | 77.7 |
| CharXiv (RQ) | 80.4 | 82.8* | 69.1 | 80.2* | 77.5 |
| CharXiv (RQ) w/ python | 86.7 | 90.0* | 84.7 | 89.9* | 78.7 |
| MathVision | 87.4 | 92.0* | 71.2* | 89.8* | 84.2 |
| MathVision w/ python | 93.2 | 96.1* | 84.6* | 95.7* | 85.0 |
| BabyVision | 39.8 | 49.7 | 14.8 | 51.6 | 36.5 |
| BabyVision w/ python | 68.5 | 80.2* | 38.4* | 68.3* | 40.5 |
| V w/ python* | 96.9 | 98.4* | 86.4* | 96.9* | 86.9 |
*公式のキミ K2.6 ベンチマーク結果を再現するには、公的 API をご利用することをお勧めします。サードパーティプロバイダーについては、キミベンダーVerifier (KVV) を参照して高精度サービスを選んでください。詳細:https://kimi.com/blog/kimi-vendor-verifier
1. 一般テスト詳細 我々は thinking mode を有効にした Kimi K2.6 と Kimi K2.5、max effort の Claude Opus 4.6、xhigh reasoning effort の GPT-5.4、および high thinking level の Gemini 3.1 Pro の結果を報告します。特別に指定がない限り、すべてのキミ K2.6 実験は temperature = 1.0、top-p = 1.0、文脈長さ 262,144 トークンの条件下で行われました。公開スコアがなかったベンチマークは、Kimi K2.6 と同じ条件下で再評価され、アスタリスク(*)でマークされています。アスタリスクの注記を除くすべての結果は公式レポートからの引用です。
2. 推論ベンチマーク GPT-5.4 および Claude 4.6 の IMO-AnswerBench スコアは https://z.ai/blog/glm-5.1 より入手しました。Humanity's Last Exam (HLE) および他の推論タスクは、最大生成長さ 98,304 トークンの条件下で評価されました。デフォルトでは、HLE フルセットの結果を報告します。テキスト単一のサブセットについては、Kimi K2.6 はツールなしで 36.4% の精度、ツールありで 55.5% の精度を達成しました。
3. ツール拡張/エージェントタスク HLE with tools, BrowseComp, DeepSearchQA, WideSearch において、検索、コードインタープリタ、Web ブラウジングツールの K2.6 を装備しました。
- HLE-Full with tools については、最大生成長さ 262,144 トークンでステップごとの制限 49,152 トークンです。単純な文脈管理戦略を採用:文脈ウィンドウが閾値を超えた場合、最新のツール関連メッセージのラウンドのみを保持します。
- BrowseComp については、Kimi K2.5 と DeepSeek-V3.2 と同じ「discard-all」戦略を用いた文脈管理によるスコアを報告します。
- DeepSearchQA については、Kimi K2.6 テストに文脈管理は適用せず、サポートされた文脈長を超えたタスクは直接失敗としてカウントされました。Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro の DeepSearchQA スコアは Claude Opus 4.7 システムカードから引用しています。
- WideSearch については、"hide tool result"文脈管理設定下の結果を報告します。文脈ウィンドウが閾値を超えた場合、最新のツール関連メッセージのラウンドのみを保持します。
- テストシステムプロンプトは、Kimi K2.5 技術レポートで使用されたものと同一です。
- Claw Eval は version 1.1 で max-tokens-per-step = 16384 の条件下で実施されました。
- APEX-Agents では、人工分析が行ったように公開版の 480 タスクのうち 452 タスクを評価しました(Investment Banking Worlds 244 および 246 は外部ランタイム依存関係を有するため除外)。
4. コーディングタスク Terminal-Bench 2.0 スコアは、デフォルトエージェントフレームワーク (Terminus-2) と提供された JSON パースャを使用し、preserve thinking mode で操作して得られました。SWE-Bench シリーズ評価(Verified, Multilingual, Pro)については、SWE-agent から適応した社内評価フレームワークを使用しました。このフレームワークには bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool の最小ツールセットが含まれます。報告されているすべてのコーディングタスクスコアは、10 の独立した実行の平均値です。
5. 視覚ベンチマーク Max-tokens = 98,304 で 3 回の実行の平均 (avg@3) を取ります。Python ツールを使用する設定では max-tokens-per-step = 65,536 および multi-step reasoning 用の max-steps = 50 です。MMMU-Pro は公式プロトコルに従い、入力順序を保持し画像を先頭に追加します。