
2026/01/29 22:59
**クラウドコードの日次ベンチマークによる劣化追跡**
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
概要:
Claude Code トラッカーは Opus 4.5 を使用してソフトウェアエンジニアリングタスクのパフォーマンスを評価し、合格率を日次・週次・月次で更新します。合格率統計は 58 % の歴史的ベースラインと ±14.0 % の許容帯に対して比較されます;統計検定(p < 0.05)が有意な劣化を示す場合、フラグが立ちます。7 日間のローリングトレンドでは、より厳格な ±5.6 % のしきい値が適用されます。ベンチマークはカスタムハーネスなしで Claude Code CLI で直接実行されるため、一貫性が保たれます。95 % 信頼区間はサンプルサイズに基づく不確実性を示すため、合格率とともに表示されます:日次評価 50 件(≈50 %)、週次 250 件(≈53 %)、月次 655 件(≈54 %)。可視化では 58 % に破線が引かれ、ベースラインを示します。これらのしきい値を超える統計的に有意な低下が検出されると、ユーザーはメール通知を受け取ります。このモニタリングフレームワークにより、開発者は回帰を迅速に特定し、AI 支援ソフトウェア開発でより高いコード品質を維持できます。
本文
最終更新: 2026年1月29日
このトラッカーの目的は、Claude Code が Opus 4.5 を用いた SWE タスクで統計的に有意な性能低下を検出することです。
- 毎日更新: Curated サブセット(SWE‑Bench‑Pro)で毎日のベンチマークを実施
- 低下検知: 統計的検定による性能低下の検出
- 見たものが得られる: Claude Code CLI 上で SOTA モデル(現 Opus 4.5)を直接ベンチマークし、カスタムハーネスは一切使用していません。
概要
| ステータス | 低下状態 |
|---|---|
| 任意の期間に統計的に有意な性能低下(p < 0.05)があるかを表示 |
- 過去30日間で低下が検出
- 基準: 歴史平均合格率 (58%) を参考値として使用し、性能変化を検出
合格率
| 指標 | 値 | サンプル数 |
|---|---|---|
| 日次合格率 | 50 % | 50 評価 |
| 7 日間合格率 | 53 % | 250 評価 |
| 30 日間合格率 | 54 % | 655 評価 |
視覚的トレンド
-
日次トレンド:
- 過去30日の毎日のベンチマーク合格率。
- 凡例項目にカーソルを合わせると各ビジュアル要素の詳細が表示されます。
- 基準 (58%) と ±14.0 % の有意性閾値がシェード領域で示されています。
- 95 % 信頼区間はチェックボックスで切り替え可能です。
-
週次トレンド(7 日移動平均):
- より滑らかな傾向を得るために、7 日間の集計合格率を表示。日々のノイズが減少します。
- 基準 (58%) と ±5.6 % の有意性閾値がシェード領域で示されています。
- 95 % 信頼区間はチェックボックスで切り替え可能です。
通知
統計的に有意な性能低下を検出した際にはメールでお知らせします。
ご登録いただきありがとうございます!確認のためメールをご覧ください。