リアルワールドで検証されたAIコードレビューのベンチマーク

Japanese Translation:

Qodoは、バグ検出とベストプラクティスの施行を客観的に測定するために設計されたAI駆動型コードレビュー基準（バージョン 1.0）をリリースしました。この基準は、TypeScript、Python、JavaScript、C、C#、Rust、Swift、およびもう一つの言語から選ばれた8つのプログラミング言語にわたる、アクティブでプロダクションレベルのオープンソースプロジェクトから取得した100件のマージ済みPull Request（PR）に580件の実際の問題を注入しています。システムレベルのコードとクロスモジュール変更が含まれています。

LLMは、PRに対してコンプライアンス違反（ベストプラクティス違反）を追加し、人間のレビューチームがすべてのグラウンドトゥルースを再確認します。7つの主要なAIレビューツールがデフォルト設定でクリーンにフォークされたリポジトリ上で評価され、QodoはF1スコア60.1 %を達成し、再現率（recall）ではすべての競合他社よりも優れ、精度（precision）も競争力を維持しました。

「Precise」（高信頼検出）と「Exhaustive」（最大カバレッジ）の2つのQodo構成は、いずれも他のプラットフォームより高いスコアを記録しました。基準では、ヒット、偽陽性（False Positive）、偽陰性（False Negative）、再現率（Recall）、精度（Precision）、F1などの評価指標が定義されており、精度は後処理で調整可能ですが、再現率はツールのコードベース理解に制限されます。

すべてのデータと基準はQodoのGitHub組織で公開されているため、開発者・研究者・ベンダーは複数言語でAIコードレビュアを比較する信頼できる指標を持ち、自動化されたコード品質保証における業界全体の改善を推進できます。

このブログは、Qodoの研究チームが共同で取り組んだ成果物です。ベンチマークとその分析を設計・構築し、検証した結果をまとめています。

Qodo Code Review Benchmark 1.0 の紹介

本ブログでは Qodo Code Review Benchmark 1.0 をご紹介します。このベンチマークは、AI駆動のコードレビューシステム（Qodo Git Code Review も含む）の性能を客観的に測定・検証するために開発された厳格な手法です。
従来のベンチマークは主に修正コミットから不具合コミットへとバックトレースする方式で、バグ検出に偏重しつつコード品質やベストプラクティスへの準拠を無視していました。また、多くの場合、実際に統合された PR をシミュレートせず、単一の不具合コミットだけを対象としたため、PR 数が少なく規模も限定的でした。

本研究では、本物でマージ済みの PR に意図的に欠陥を注入するという新しいアプローチを採用しています。これにより、コード正確性（バグ検出）とコード品質（ベストプラクティス遵守）の両方を現実的なレビュー環境で評価でき、規模は 100 件の PR に合計 580 個の問題を含む大規模データセットとなります。
Qodo モデルを他の主要 AI コードレビューサービス（7社）と比較した結果、F1 スコア 60.1 % を達成し、最も優れた性能を示しました。このベンチマークは、評価対象ツールが生成するレビューを含め、GitHub 上の Qodo Benchmark 組織で公開されています。以下では、ベンチマーク作成手法、実験設定、比較結果、および本研究から得られた主な教訓について詳述します。

方法論

Qodo Code Review Benchmark は以下の 6 段階で構成されます。

リポジトリ選定
- システムレベルプロジェクト：サーバーロジック、フロントエンド、データベース、API 等を含むマルチコンポーネントの本番品質コード。企業向け PR でクロスモジュール変更やアーキテクチャ上の課題が発生するケースを想定。
- 言語多様性：TypeScript、Python、JavaScript、C、C#、Rust、Swift を網羅。
リポジトリ解析とルール抽出
それぞれの対象リポジトリから現在採用されているコーディング基準・スタイルガイド・貢献規約に沿ったベストプラクティスルールを収集・形式化。文書とコード全体をエージェントベースで解析し、人手による検証を行う。
PR の取得・フィルタリング
GitHub API で PR を収集し、技術的フィルタ（例：変更ファイル ≥ 3、変更行数 50–15,000 行、最近マージ済み）を適用。リバートや直後の修正コミットがないもののみ選択。抽出した PR は、ベストプラクティスに準拠しているか事前検証される。
違反注入（コンプライアンス段階）
LLM を用いて各 PR の差分に対し、機能を破壊せずにコード品質違反（例：命名規則違反、コメント不足等）を挿入。
不具合注入（追加バグ段階）
1–3 個の機能/論理バグを追加。ロジックエラー、境界値失敗、競合状態、リソースリーク、不適切なエラーハンドリングなど、多様な欠陥を組み込み、AI が検出すべき複数欠陥のベンチマークインスタンスを完成。
グラウンドトゥルース検証
すべての注入手順後に二重確認を実施。最後のチェックで自然発生した微細な問題や追加の違反が見つかった場合は、手動でグラウンドトゥルースリストへ追加し、現実的欠陥を網羅。

評価

セットアップ

すべてのベンチマーク PR はクリーンなフォーク済みリポジトリ上に作成。
```
AGENTS.md
```
にまとめたリポジトリ固有のベストプラクティスルールを根ディレクトリへコミットし、参加ツールが参照できるようにする。
7 つの評価対象コードレビューツールはデフォルト設定で PR 提出時に自動レビューをトリガー。
各ツールがエラーなく実行されることを確認し、必要に応じて再トリガーして完全なカバレッジを確保。
生成されたインラインコメントは詳細に収集。

指標

指標	定義
Hit（真陽性）	基本的に正しい問題説明と正確なローカリゼーション（ファイル＋行番号）があるインラインコメント。
False Positive (FP)	グラウンドトゥルースのどの問題とも一致しないコメント。
False Negative (FN)	グラウンドトゥルースに存在するが、ツール生成コメントで Hit と認定されない問題。
Recall	ツールが認識したグラウンドトゥルース問題の割合。
Precision	ツール生成コメントが正しいと判定された割合。
F1 スコア	Precision と Recall の調和平均。

結果

ツール間で顕著なパターンが見られました。

いくつかのエージェントは極めて高い Precision を示す一方、Recall が非常に低く、実際の問題のごく一部しか検出しません。これらは保守的で、明白な欠陥のみを報告し、システムレベルやベストプラクティス違反など微細かつ複雑な問題を見逃す傾向があります。結果として Precision は高いものの、実際のレビュー網羅度は著しく低下します。
Qodo は大幅に優れた Recall を達成しつつ、競争力ある Precision も維持しています。そのため、総合的な F1 スコアが最高です。ユーザー設定でノイズを抑えるよう調整可能ですが、Recall の向上はコードベース・ファイル間依存性・アーキテクチャ文脈・リポジトリ固有標準への深い理解に左右されます。

Qodo については二つの動作モードで報告しています。

Qodo Precise：開発者が必ず対処すべき問題のみを報告。
Qodo Exhaustive：最大限のカバレッジと Recall を目指す設定。

両構成とも、評価対象となった全ツールよりも高い F1 スコアを記録しています。

付録

選定リポジトリ

選択したリポジトリは、言語・システム分野の広範な代表的配列を網羅し、フルスタック Web アプリケーションから分散システム、データベース、開発者向けプラットフォーム、ランタイムインフラストラクチャ、モバイルアプリまで幅広く含まれます。
複雑度は単一言語（例：C で書かれた Redis、Rust で構築された Tauri）からポリグロットシステム（Python/Go の Dify、C#/JavaScript の ASP.NET Core）まで多岐にわたり、現代ソフトウェア開発で直面するリアルワールドコードベースの多様性を反映した最適な候補となっています。

リアルワールドで検証されたAIコードレビューのベンチマーク

Japanese Translation:

Qodo Code Review Benchmark 1.0 の紹介

関連研究

方法論

評価

セットアップ

指標

結果

付録

選定リポジトリ

同じ日のほかのニュース

リアルワールドで検証されたAIコードレビューのベンチマーク

Japanese Translation:

Qodo Code Review Benchmark 1.0 の紹介

関連研究

方法論

評価

セットアップ

指標

結果

付録

選定リポジトリ

同じ日のほかのニュース

Qodo Code Review Benchmark 1.0 の紹介