Kimí ベンダー検証ツール:推論プロバイダーの精度を検証します

2026/04/21 3:39

Kimí ベンダー検証ツール:推論プロバイダーの精度を検証します

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

アリババ・クラウドは、オープンソース AI に関連する重要な信頼性課題に対処するため、推論精度を検証するためのツールである Kimi ベンダー verifier(KVV)とともに、Kimi K2.6 モデルを発表しました。この取り組みは、初期のベンチマークテストで識別された異常に対応しており、予期しないモデル振る舞いは、実際のモデル欠陥ではなく、サードパーティ製プラットフォーム間で不整合なデコードパラメータやインフラストラクチャの違いによって引き起こされていることが明らかになっていました。これらの課題を解決するため、アリババは単なる症状の検出から退き、vLLM、SGLang、KTransformers などの技術を用いて、デプロイメントスタック内の根本原因へ修正シフトしています。戦略には、思考モードにおいて厳格な API セット(Temperature=1.0、TopP=0.95)を適用し、6 つの主要ベンチマーク(Pre-Verification、OCRBench、MMMU Pro、AIME2025、K2VV ToolCall、SWE-Bench)を提供し、推論精度を速度よりも優先する公開リーダーボードの設立が含まれます。さらに、H20 GPU 上のインフラストラクチャ検証への早期アクセスや長時間タスク用の最適化済みスクリプトにより、ベンダーがパフォーマンスの崩壊を防ぐことができます。究極的には、この包括的なアプローチは、ユーザーがモデルの本質的な能力と技術的偏りを明確に区別でき、ホスティングプラットフォームに関わらず信頼できる AI サービスを受けられるような、信頼性の高いエコシステムの創出を目指しています。

本文

『「信頼の連鎖」を再構築する:Kimi Vendor Verifier (KVV)』

Kimi K2.6 モデルのリリースに伴い、オープンソースモデルの利用者が推論実装の正確性を検証できるよう支援することを目的とした「Kimi Vendor Verifier(以下、KVV)」プロジェクトを公開いたします。これは単なる付帯項目ではなく、我々が「モデルをオープンソース化するだけでは半分かただ」という痛い教訓を得た上で策定したものです。もう一つの重要な要素は、それが他の環境でも正しく動作することを確認し続けることです。


公式評価結果

Kimi API K2VV による F1 スコアの算出に関する評価結果 にアクセスするには、こちらをクリックしてください。

KVV が構築された理由

  • 単発的な事例から構造的な課題へ:K2 Thinking のリリース以降、コミュニティよりベンチマークスコアにおける異常値について多くのフィードバックをいただきました。調査の結果、これらのケースの大部分は「デコードパラメータの誤用」に起因することが確認されました。これに対する即効性の対応として、まず API レベルで第一線の防衛ラインを確立し、Thinking モードにおいて Temperature=1.0 と TopP=0.95 を強制するとともに、思考内容が正しく返送されることを必須検証としています。
  • インフラの不一致:しかしながら、より微妙な異常値も次第に警戒を強めました。LiveBenchmark における特定の評価では、サードパーティ製 API と公式 API の間に顕著な乖離を観察いたしました。各種インフラプロバイダーに対する広範なテストの結果、この差異は普遍的なものであることが判明しました。これはオープンソースモデルエコシステムが抱えるより深い問題を浮き彫りにしています。「モデル能力の欠陥」と「エンジニアリング実装における逸脱」を区別できない状況において、オープンソースエコシステムへの信頼は確実に崩壊する恐れがあります。

我々の解決策

  • 6 つの主要なベンチマーク(特定のインフラ_FAILURE を明らかにするために選定):

    1. 事前検証:API パラメータ制約(温度係数、top_p など)が正しく強制されているかを検証します。ベンチマーク評価に進む前に全てのテストをパスさせる必要があります。
    2. OCRBench:マルチモーダルパイプライン向けの 5 分間のスモークテストです。
    3. MMMU Pro:多様な視覚入力を用いて、Vision 入力の事前処理の正確性を検証します。
    4. AIME2025:長時間出力への耐性テストです。短尺ベンチマークでは検出されにくい KV キャッシュのバグやクアンタイゼーション劣化を捉えます。
    5. K2VV ToolCall:トリガーの一貫性(F1 スコア)と JSON Schema の正確性を測定します。エージェントにおけるツールエラーは累積的になるため、早期に検出します。
    6. SWE-Bench:完全なエージェント型コーディングテストです。(サンドボックスへの依存関係のためオープンソース化されていません。)
  • 上流での是正策:症状を検出するだけでなく、原因そのものを排除するために、vLLM/SGLang/KTransformers コミュニティと連携し、根本的な解決を図っています。

  • リリース前検証:デプロイ後の苦情対応を待つのではなく、モデルの早期アクセスを提供することで、インフラプロバイダーはユーザーが問題に直面する前に自身のスタックを検証できるようになります。

  • 継続的ベンチマーク化:ベンダーの結果に関する公的なリーダーボードを維持し続けます。この透明性が、ベンダーに対して正確性を最優先させることを促します。

テストコスト推計

我々は 2 台の NVIDIA H20(各 8 GPU)サーバーで完全な評価ワークフローを検証し完了しました。逐次実行には約 15 時間を要します。評価効率を向上させるため、スクリプトは長期間にわたる推論シナリオ向けの最適化が施されており、ストリーミング推論、自動再試行、チェックポイント復元機能などが含まれています。

オープンな招待状

モデルの重み(ウェイト)はオープンソース化されています。それらを正しく動作させるための知識もまた、同様であるべきです。我々はベンダーカバーを拡大しており、より軽量なエージェント型テストの開発にも取り組んでいます。

お問い合わせ:[email protected]

同じ日のほかのニュース

一覧に戻る →

2026/04/21 5:39

ジョン・テルナス氏、次期アップル CEO に就任

## Japanese Translation: 欠落している要素は、キーポイントリストからの具体的なデータポイントおよび製品の詳細を組み込んだ改良されたバージョンを採用する価値があり、ソース資料の包括的な反映を確保するためには十分な重大さがあります。 **改善されたサマリー:** Apple は、John Ternus が 2026 年 9 月 1 日に CEO に就任し、Tim Cook を後継することを含む大規模なリーダーシップ移行を公式に確認しました。取締役会はこの計画を全会一致で承認し、Cook が 2011 年に CEO に就任してから歴史的な業績を認識しています。彼は社員の市場価値を約 3500 億ドルから 4 兆ドルへと成長させ、収益を 2011 会計年度の 1080 億ドルから 2025 会計年度の 4160 億ドル以上までほぼ四倍に拡大しました。Cook は日常業務から退き、執行議長として務める一方で、夏の間は CEO を辞任せず、円滑な引き継ぎを確保します。彼の指導の下、Apple は Apple Watch、AirPods、Vision Pro という象徴的な新カテゴリーを導入し、自社設計のシリコンに移行し、200 カ国以上および地域に店舗を持つ 500 店以上の小売網を拡大しました。また、チームメンバーが 100,000 名以上増加し、現在稼働している 25 億台超のデバイスベースを支援しています。 John Ternus は、2001 年に製品設計チームの一員として Apple に加入し、2021 年にハードウェアエンジニアリング担当副社長となり、2026 年 9 月 1 日に CEO の役職を引き継ぎ、取締役会に就任します。彼の指導の下、MacBook Neo、iPhone Air、フルモデルの iPhone 17 シリーズ、アクティブノイズキャンセレーション搭載のアバンスド AirPods、Apple Watch Ultra 3 に用いられた再生アルミニウムや 3D プリンティング钛など、重要なハードウェア革新を監督しました。さらに、Arthur Levinson は 2026 年 9 月 1 日に非執行会長からリードインディペンデントダイレクターへ移行します。この戦略的なシフトは、Apple の長期的なビジョンを固めるものであり、ハードウェア革新と持続可能性への深いコミットメントを持つ内部人材へのリーダーシップの引継ぎによって実現され、新鮮でありながら親しみのあるリーダーシップの下での継続性を確保します。

2026/04/21 6:32

「楽しさと利益のためのジュージ・メガマージ」

## 日本語訳: 記事は、JUJUTSU で導入される簡素化されたバージョン管理ワークフロー「megamerge」について紹介しています。これは、オクトパス合併(3 つ以上の親を持つ合併)を用いて、複数の開発ブランチを単一のローカルのベースコミットに統合します。不安定なブランチの先頭に直接作業を行う代わりに、開発者は関連する上流ブランチ(機能追加、バグ修正、設定など)を親とする空の megamerge コミットを作成し、作業コピーが常にすべての変更を統合してコンパイル可能になるように確保するとともに、タスクを変更する際に予期せぬリモート合併競合を排除します。 megamerge を開始するには、`jj new x y z` を実行した後に `jj commit --message "megamerge"` を実行し、指定されたブランチを親とする空のコミットを作成します。すべての書き込みは、このベース(WIP ス tack)の上で実施され、megamerge がローカルに留まることで安定性を保ちます。個々の機能ブランチは遠隔リポジトリへ通常通り公開し続けますが、megamerge 自体はプッシュされません。 `jj absorb` を用いて上流の変更を自動的に統合するワークフローでは、約 90% の更新を後続的可変コミットに圧縮して同定します。新しい作業で独自のコミットが必要になる場合は、bookmark を更新しながら WIP を megamerge の下に移動するために `jj rebase --revision y --after x --before megamerge` を使用します。並列ス tack の管理には revset アリヤス(例: `"closest_merge(to)" = "heads(::to & merges())"`)および `stack` コマンドを用い、`stage = ["stack", "closest_merge(@).. ~ empty()"]` というようにのアリヤスで一度にステージリングし、その後 `jj stage` を実行します。 メインブランチ(`trunk()`)との同期を維持するには `jj rebase --onto trunk()` を使用でき、これは自分が所有するコミットに対して動作し、他者によるブランチは保護されます。Mutable コミットのみを安全に trunk へ rebase するための場合は、`restack = ["rebase", "--onto", "trunk()", "--source", "roots(trunk()..) & mutable()"]` というようなアリヤスを使用します。全体として、このアプローチは合併による面倒を大幅に削減し、新しい作業が堅牢な統合された基盤の上に自然と構築されるような円滑で協力的なサイクルをサポートします。

2026/04/21 4:51

『Soul Player C64 ―1MHz のコモドール64で動作する本物のトランスフォーマー』

## Japanese Translation: Soul Player C64 は、未修正の Commodore 64 でネイティブ速度(約 1MHz)で完全動作する縮小版变压器モデルを実行し、画期的な成果を達成しました。このシステムは、2 レイヤーのdecoder-only アーキテクチャを実装するため、手書きの 6502/6510 アセンブリ言語を使用しており、リアルなマルチヘッド因果的自己注意機構、RMSNorm、および ソフトマックス(128 エントリのルックアップテーブル経由で)を備えており、すべてが 1 つのフロッピーディスクに収まります。主要な技術的突破口としては、6502 プロセッサの精度限界を克服しつつ有意義な重みを保つために、標準の 17 ビットではなく 14 ビットのみで注意スコアをシフトすることなどが挙げられます。 ChatGPT のような現代の巨人と並んでモデルは動作しますが、約 25,000 int8 パラメータという厳格な制約下にあります:単語書式は 128 トークン(大文字を未知として扱う)、埋め込み次元は 32、最大トレーニングコンテキストウィンドウは 20 トークンです。推論にはトークンあたり約 60 秒かかりつつも、レガシーハードウェアでのローカル機械学習の探求へのアクセシブルなパスを提供します。 このプロジェクトには、ユーザーがカスタムモデルをトレーニングするための包括的なツールが含まれています:`train.py` は Quantization-Aware Training (QAT)、FakeQuantI8、およびラベルスムージングをサポートし、重みをコンパクトなバイナリ形式にエクスポートします;`build.py` は C64 バイナリをコンパイルします;`test.py` はほぼ 90 の厳密な検証テストにより安定性を確保します。リリースパッケージにはソースファイルと即座に実行可能なビルドの両方が含まれており、高度な AI コンセプトがハードウェア変更なしでビンテージシステム上で機能することを示しています。