
2026/04/21 3:39
Kimí ベンダー検証ツール:推論プロバイダーの精度を検証します
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
アリババ・クラウドは、オープンソース AI に関連する重要な信頼性課題に対処するため、推論精度を検証するためのツールである Kimi ベンダー verifier(KVV)とともに、Kimi K2.6 モデルを発表しました。この取り組みは、初期のベンチマークテストで識別された異常に対応しており、予期しないモデル振る舞いは、実際のモデル欠陥ではなく、サードパーティ製プラットフォーム間で不整合なデコードパラメータやインフラストラクチャの違いによって引き起こされていることが明らかになっていました。これらの課題を解決するため、アリババは単なる症状の検出から退き、vLLM、SGLang、KTransformers などの技術を用いて、デプロイメントスタック内の根本原因へ修正シフトしています。戦略には、思考モードにおいて厳格な API セット(Temperature=1.0、TopP=0.95)を適用し、6 つの主要ベンチマーク(Pre-Verification、OCRBench、MMMU Pro、AIME2025、K2VV ToolCall、SWE-Bench)を提供し、推論精度を速度よりも優先する公開リーダーボードの設立が含まれます。さらに、H20 GPU 上のインフラストラクチャ検証への早期アクセスや長時間タスク用の最適化済みスクリプトにより、ベンダーがパフォーマンスの崩壊を防ぐことができます。究極的には、この包括的なアプローチは、ユーザーがモデルの本質的な能力と技術的偏りを明確に区別でき、ホスティングプラットフォームに関わらず信頼できる AI サービスを受けられるような、信頼性の高いエコシステムの創出を目指しています。
本文
『「信頼の連鎖」を再構築する:Kimi Vendor Verifier (KVV)』
Kimi K2.6 モデルのリリースに伴い、オープンソースモデルの利用者が推論実装の正確性を検証できるよう支援することを目的とした「Kimi Vendor Verifier(以下、KVV)」プロジェクトを公開いたします。これは単なる付帯項目ではなく、我々が「モデルをオープンソース化するだけでは半分かただ」という痛い教訓を得た上で策定したものです。もう一つの重要な要素は、それが他の環境でも正しく動作することを確認し続けることです。
公式評価結果
Kimi API K2VV による F1 スコアの算出に関する評価結果 にアクセスするには、こちらをクリックしてください。
KVV が構築された理由
- 単発的な事例から構造的な課題へ:K2 Thinking のリリース以降、コミュニティよりベンチマークスコアにおける異常値について多くのフィードバックをいただきました。調査の結果、これらのケースの大部分は「デコードパラメータの誤用」に起因することが確認されました。これに対する即効性の対応として、まず API レベルで第一線の防衛ラインを確立し、Thinking モードにおいて Temperature=1.0 と TopP=0.95 を強制するとともに、思考内容が正しく返送されることを必須検証としています。
- インフラの不一致:しかしながら、より微妙な異常値も次第に警戒を強めました。LiveBenchmark における特定の評価では、サードパーティ製 API と公式 API の間に顕著な乖離を観察いたしました。各種インフラプロバイダーに対する広範なテストの結果、この差異は普遍的なものであることが判明しました。これはオープンソースモデルエコシステムが抱えるより深い問題を浮き彫りにしています。「モデル能力の欠陥」と「エンジニアリング実装における逸脱」を区別できない状況において、オープンソースエコシステムへの信頼は確実に崩壊する恐れがあります。
我々の解決策
-
6 つの主要なベンチマーク(特定のインフラ_FAILURE を明らかにするために選定):
- 事前検証:API パラメータ制約(温度係数、top_p など)が正しく強制されているかを検証します。ベンチマーク評価に進む前に全てのテストをパスさせる必要があります。
- OCRBench:マルチモーダルパイプライン向けの 5 分間のスモークテストです。
- MMMU Pro:多様な視覚入力を用いて、Vision 入力の事前処理の正確性を検証します。
- AIME2025:長時間出力への耐性テストです。短尺ベンチマークでは検出されにくい KV キャッシュのバグやクアンタイゼーション劣化を捉えます。
- K2VV ToolCall:トリガーの一貫性(F1 スコア)と JSON Schema の正確性を測定します。エージェントにおけるツールエラーは累積的になるため、早期に検出します。
- SWE-Bench:完全なエージェント型コーディングテストです。(サンドボックスへの依存関係のためオープンソース化されていません。)
-
上流での是正策:症状を検出するだけでなく、原因そのものを排除するために、vLLM/SGLang/KTransformers コミュニティと連携し、根本的な解決を図っています。
-
リリース前検証:デプロイ後の苦情対応を待つのではなく、モデルの早期アクセスを提供することで、インフラプロバイダーはユーザーが問題に直面する前に自身のスタックを検証できるようになります。
-
継続的ベンチマーク化:ベンダーの結果に関する公的なリーダーボードを維持し続けます。この透明性が、ベンダーに対して正確性を最優先させることを促します。
テストコスト推計
我々は 2 台の NVIDIA H20(各 8 GPU)サーバーで完全な評価ワークフローを検証し完了しました。逐次実行には約 15 時間を要します。評価効率を向上させるため、スクリプトは長期間にわたる推論シナリオ向けの最適化が施されており、ストリーミング推論、自動再試行、チェックポイント復元機能などが含まれています。
オープンな招待状
モデルの重み(ウェイト)はオープンソース化されています。それらを正しく動作させるための知識もまた、同様であるべきです。我々はベンダーカバーを拡大しており、より軽量なエージェント型テストの開発にも取り組んでいます。
お問い合わせ:[email protected]