2026/01/29 22:59

クラウドコードの日次ベンチマークによる劣化追跡

RSS: https://news.ycombinator.com/rss

要約▶

日本語訳:

概要:
Claude Code トラッカーは Opus 4.5 を使用してソフトウェアエンジニアリングタスクのパフォーマンスを評価し、合格率を日次・週次・月次で更新します。合格率統計は 58 % の歴史的ベースラインと ±14.0 % の許容帯に対して比較されます；統計検定（p < 0.05）が有意な劣化を示す場合、フラグが立ちます。7 日間のローリングトレンドでは、より厳格な ±5.6 % のしきい値が適用されます。ベンチマークはカスタムハーネスなしで Claude Code CLI で直接実行されるため、一貫性が保たれます。95 % 信頼区間はサンプルサイズに基づく不確実性を示すため、合格率とともに表示されます：日次評価 50 件（≈50 %）、週次 250 件（≈53 %）、月次 655 件（≈54 %）。可視化では 58 % に破線が引かれ、ベースラインを示します。これらのしきい値を超える統計的に有意な低下が検出されると、ユーザーはメール通知を受け取ります。このモニタリングフレームワークにより、開発者は回帰を迅速に特定し、AI 支援ソフトウェア開発でより高いコード品質を維持できます。

本文

最終更新: 2026年1月29日

このトラッカーの目的は、Claude Code が Opus 4.5 を用いた SWE タスクで統計的に有意な性能低下を検出することです。

毎日更新: Curated サブセット（SWE‑Bench‑Pro）で毎日のベンチマークを実施
低下検知: 統計的検定による性能低下の検出
見たものが得られる: Claude Code CLI 上で SOTA モデル（現 Opus 4.5）を直接ベンチマークし、カスタムハーネスは一切使用していません。

概要

ステータス	低下状態
任意の期間に統計的に有意な性能低下（p < 0.05）があるかを表示

過去30日間で低下が検出
基準: 歴史平均合格率 (58%) を参考値として使用し、性能変化を検出

合格率

指標	値	サンプル数
日次合格率	50 %	50 評価
7 日間合格率	53 %	250 評価
30 日間合格率	54 %	655 評価

視覚的トレンド

日次トレンド:
- 過去30日の毎日のベンチマーク合格率。
- 凡例項目にカーソルを合わせると各ビジュアル要素の詳細が表示されます。
- 基準 (58%) と ±14.0 % の有意性閾値がシェード領域で示されています。
- 95 % 信頼区間はチェックボックスで切り替え可能です。
週次トレンド（7 日移動平均）:
- より滑らかな傾向を得るために、7 日間の集計合格率を表示。日々のノイズが減少します。
- 基準 (58%) と ±5.6 % の有意性閾値がシェード領域で示されています。
- 95 % 信頼区間はチェックボックスで切り替え可能です。

通知

統計的に有意な性能低下を検出した際にはメールでお知らせします。
ご登録いただきありがとうございます！確認のためメールをご覧ください。

同じ日のほかのニュース

一覧に戻る →

2026/01/30 2:02

プロジェクト・ジーニー：無限に広がるインタラクティブワールドへの実験 (Note: The translation maintains the original length and conveys the meaning accurately.)

## Japanese Translation: > **Project Genie** は、米国のGoogle AI Ultraサブスクライバー（18歳以上）向けに提供されている最先端の実験プロトタイプです。ユーザーはテキストプロンプトやアップロードした画像を使ってインタラクティブな世界を構築・探索・リミックスできます。Genie 3、Nano Banana Pro、およびGeminiが動力源であり、Genie 3はシーン内を移動する際にリアルタイムでパスを生成し、Nano Banana Proはクイックスケッチプレビューとカメラコントロール（第一人称または第三人称）を提供します。探索はダイナミックで、システムはユーザーの行動に応じてオンザフライでパスを生成し、カメラコントロールを提供し、プロンプトやキュレーションされたギャラリー/ランダマイズコンテンツを通じて既存の世界をリミックスできます。ユーザーは自分の作成物の動画をダウンロードすることが可能です。 > 既知の制限には、世界のリアリズムの低下、物理的な不正確さ、キャラクターコントロール/レイテンシー問題、および生成時間の60秒上限があります。発表されたGenie 3機能（例：プロンプタブルイベント）はまだ実装されていません。このプロトタイプはGoogle Labsの責任あるAIイニシアチブの一環であり、信頼できるテスターからフィードバックを収集しています。 > Googleは米国外へのアクセス拡大を計画しており、最終的にはより広範なオーディエンスに公開し、ユーザー入力に基づいて機能を洗練させていく予定です。このツールはクリエイターを支援し、開発者に新しいコンテンツ生成ワークフローを提供し、AI駆動型インタラクティブメディアにおけるGoogleの地位を強化する可能性があります。

2026/01/30 3:55

プレイステーション II リコンパイル・プロジェクトは、まったくもって驚異的です。

## Japanese Translation: > **PS2Recomp は、PlayStation 2 タイトルをネイティブな Windows/Linux バイナリに変換する新しい静的リコンパイルツールであり、現在のエミュレーター（例：PCSX2）よりも優れた性能を目指しています。コンソール固有の CPU（Emotion Engine）と GPU（Graphics Synthesizer）を対象にすることで、低価格帯 PC でもスムーズに動作できる効率的なコードを生成できます。このプロジェクトは、N64 の Mario 64 や Zelda がモダングラフィックス機能を追加してリコンパイルされたような、以前のコンソールリコンパイル作業を基盤としており、このアプローチがより強力なシステムに適用できることを証明しています。 > > 「どんなゲームでも動かせる」ドロップイン型エミュレーターとは異なり、PS2Recomp は個別のタイトルに適用する必要があります。また、ゲームコードのデコンパイルも可能です。プロジェクトはまだ進行中ですが、一度完了すれば、Metal Gear Solid 2、Gran Turismo、God of War、Tekken 4、Shadow Hearts などのクラシック作品がネイティブ PC ポートとして登場し、モダンコントローラーをサポートし、高解像度リマスターやコミュニティリメイクも実現できる可能性があります。これによりプレイヤーは高フレームレート・鮮明な解像度と新しいビジュアルアップグレードを享受でき、開発者はレガシーリマスターの制作ルートが明確になり、業界は古いタイトルを現代ハードウェア上で保存し活性化する実証済みモデルを手に入れられます。 > > **技術的注記:** PS2 の Emotion Engine は 300 MHz 未満（2つのベクトルユニット）で動作し、Graphics Synthesizer は約 147 MHz（4 MB 内蔵 DRAM）で運転されており、クロック速度が低くても同時期のコンソールを上回る性能を示しています。

2026/01/30 7:38

**グリッド：永遠に無料、ローカル優先、ブラウザベースの3Dプリント／CNC／レーザー用スライサー**

## 日本語訳: Grid.Space は、完全にローカルで動作する無料のブラウザベースの製造プラットフォームです。ソフトウェアのインストール、ライセンス取得、クラウドアップロードは不要です。すべての学生作品はローカルデバイス上に保持されるため、COPPA と FERPA の準拠と完全なプライバシー保護が保証されます。このサービスは初回読み込み後にオフラインで動作し、Windows、macOS、Linux、Chromebook、タブレット、および古いコンピュータのすべてのモダンブラウザをサポートします。 3Dプリント（FDM / SLA）、CNC 溶接、レーザー切断、3D モデリングに対する業界標準のワークフローを提供し、実際のスキル移転が可能です。このプラットフォームは K‑12 の教室、メーカースペース、大学の研究室、図書館、ホームスクール、および放課後プログラムに最適で、IT の悩みや管理者権限を必要としません。 Grid.Space は、テクノロジー & エンジニアリング、サイエンス、アート & デザインの STEM 標準に沿っており、CAD/CAM ワークフロー、加法・減法製造、材料特性、および反復設計をカバーしています。学生は `grid.space/kiri`（3Dプリント / CNC）や `grid.space/mesh`（3Dモデリング）のようなショートカットを使用し、ドラッグアンドドロップでモデルを追加し、機械出力を生成してすべてをローカルに保存できます。開始は簡単です。grid.space をブックマークし、次に docs.grid.space でチュートリアル、YouTube のウォークスルー、またはフォーラムでレッスンプランを確認してください。このプラットフォームは新機能を自動更新しながら完全にローカルなままです。MIT ライセンスの下でオープンソースとして公開されており、永遠に無料です—席ごとのライセンス料、サブスクリプション料金、または期限切れ割引はありません。サポートが必要な場合は admin@grid.space までお問い合わせください。

**クラウドコードの日次ベンチマークによる劣化追跡**

日本語訳:

概要

合格率

視覚的トレンド

通知

同じ日のほかのニュース

クラウドコードの日次ベンチマークによる劣化追跡