Claude オプス 4.7

最新のモデル「Claude Opus 4.7」が、一般ユーザー向けに広くリリースされました。

Opus 4.7 は、先進的なソフトウェアエンジニアリング分野において Opus 4.6 の大幅な改良を遂げたものであり、特に複雑で困難な課題においては顕著な性能向上が見られます。利用者の皆様からは、「以前は緊密な監督が必要だったような最も難しいコーディング作業」を、安心して Opus 4.7 に引き渡すことが可能となったとの報告が上がっています。

Opus 4.7 は、複雑で長時間かかるタスクに対し、厳密かつ一貫性のある処理を行うとともに、指示への対応も極めて正確です。また、回答を報告する前に自身の出力を検証する仕組みを導入しました。さらに視覚認識能力においても大幅な改善があり、高解像度の画像を認識することが可能です。専門的なタスクの実行においては、洗練されたセンスと創造性を兼ね備え、より高品質な UI/UX デザイン、プレゼンテーション資料、ドキュメントの作成を実現します。なお、最も高度なモデルである「Claude Mythos Preview」に及ぶほど広範な能力を有するわけではありませんが、幅広いベンチマークにおいて Opus 4.6 を上回る結果を示しています。

プロジェクト・グラスウィング（Project Glasswing）およびサイバーセキュリティに関する取り組みについて 先週、AI モデルがもたらすサイバーセキュリティ分野におけるリスクとメリットを踏まえた「プロジェクト・グラスウィング」を発表いたしました。当時は、Claude Mythos Preview のリリースは限定的とし、より高度な能力を持つモデルではなく、まずは比較的低い能力のモデルを用いて新しいサイバー防御策の実装と検証を行う方針をお伝えいたしました。

Opus 4.7 は、この方針に基づき開発された最初のモデルです。Mythos Preview に見られるような高度なサイバーセキュリティ機能は備えていません（実際、トレーニング段階でこれらの能力を意図的に抑制する試みも実施されました）。本リリースに伴い、禁止事項または高リスクのサイバーセキュリティ用途を示唆するリクエストを自動的に検知・ブロックする安全対策（safeguards）を付与しています。これらの実運用から得られる知見は、将来的に Mythos クラスモデルを広くリリースするという目標達成に向けて貢献いたします。

正当なサイバーセキュリティ目的（脆弱性研究、ペネトレーションテスト、レッドチーム活動など）で Opus 4.7 をご活用いただけるセキュリティ専門家の方へは、「サイバー検証プログラム（Cyber Verification Program）」への参加を推奨しております。

利用開始情報と価格体系 本日、Claude の全製品群、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry におけるアクセスが可能となりました。Opus 4.6 と同じ価格設定を採用しています：入力トークン当たり 5 ドル、出力トークン当たり 25 ドル（百万分の一単位）です。開発者は Claude API を通じて「claude-opus-4-7」モデルをご利用いただけます。

Claude Opus 4.7 の初期テスト結果

初期アクセス testers（先行検証ユーザー）から強い反響を受けています：

**早期評価：**Claude Opus 4.7 は開発者にとって飛躍的な進化をもたらす可能性を秘しています。計画フェーズにおいて自身による論理的誤りを検出でき、実行効率も大幅に向上しており、従来型の Claude モデルよりも遥かに高性能です。数千万人の消費者や企業向け金融技術プラットフォームにおいては、この速度と精度の組み合わせが変革的であり、顧客が日々信頼して利用する金融ソリューションの提供更期を加速させる可能性があります。
**最先端コーディング能力：**Anthropic はすでにコーディングモデルにおいて基準を設定しており、Opus 4.7 は市場における最高水準（state-of-the-art）モデルとして、その水準を一層意味ある形で押し上げました。内部評価では、単なる原種能力だけでなく、リアルな非同期ワークフロー（自動化、CI/CD、長時間タスク）の処理能力において際立っています。また、ユーザーの意見に安易に従うだけでなく、課題に対して深く思考し、明確なスタンスを持って提案する姿勢を示します。
**精度と効率性：**Hex が評価したモデルの中で Opus 4.7 が最強です。データの欠落を正しく報告し、推測可能だが実際には誤っている補完結果を提供することはなく、また Opus 4.6 に見られるような「不整合なデータ（dissonant data）」への誘導も耐え得ます。「低-effort（低負荷）」モードの Opus 4.7 は、「中-effort（中負荷）」モードの Opus 4.6 とほぼ同等の実力を発揮します。
**コーディングベンチマーク：**93 タスク構成のコーディングベンチマークにおいて、Opus 4.6 に比べ解決率を 13% 向上させました。その内訳には、Opus 4.6 も Sonnet 4.6 も解決できなかった 4 つの課題が含まれます。これに平均レイテンシーの低下と厳格な指示遵守能力が加わり、特に複雑で長時間かかるコーディングワークフローにおいて意味深です。マルチステップタスクにおける摩擦を減少させ、開発者がフロー状態に留まり構築に集中できるようになります。
**研究エージェントベンチマーク：**内部の研究エージェントベンチマークに基づき、Opus 4.7 はマルチステップ作業における最高効率の基準線を示しました。6 モジュール構成の総合得点で 0.715 を獲得し、トップタイを争うとともに、テストしたモデルの中で最も一貫性のある長文脈処理性能を発揮しました。最大のモジュール「一般金融（General Finance）」においては Opus 4.6 より有意な改善を見せ、0.813 と 0.767 でスコアを出し、かつグループ内で最優秀の開示・データ規律を示しました。また、推論論理において Opus 4.6 が苦戦していた分野でも安定した実力を発揮しています。
**持続的推論能力（Sustained Reasoning）：**モデルが調査やタスク完了の限界を拡張する点で、Opus 4.7 は新たな段階を迎えました。Anthropic は長期的な推論最適化に注力しており、市場トップクラスの性能となっています。エンジニアリングチームがエージェントとの個別対応から並列管理へ移行する中で、この類いのフロンティア能力は新しいワークフローを解き放つ鍵となります。
**マルチモーダル理解：**化学構造の読解や複雑な技術図面の解釈など、Opus 4.7 のマルチモーダル理解能力において大きな改善が見られます。解像度の向上により、Solve Intelligence が生命科学特許ワークフロー（出願書作成から権利侵害検出、無効性図表作成まで）に最先端ツールを構築することを可能にしています。
**自律性（Devin）：**DevIn において、長期的自律性を新たなレベル带到了います。数時間にわたって整合性を持って作業を続け、困難な問題に対し諦めずに挑み、以前は信頼して実行し得なかった深層調査系の作業を解放します。
**開発者体験（Replit）：**Replit にとっては Opus 4.7 はスムーズなアップグレード判断でした。ユーザーの日常的な作業において、同等の品質をより低コストで達成しており、ログ・トレース分析、バグ発見、修正提案といったタスクにおいて効率性と精度が向上しています。個人的には、技術的な議論において反論し、より良い意思決定を助けるその姿勢が好きです。まさに「良き同僚」と感じられます。
**法的正確性（Harvey）：**BigLaw Bench における Harvey での実質的正確性が極めて高く、高負荷条件下で 90.9% を記録しました。レビューテーブルにおける推論校正が良く、曖昧なドキュメント編集タスクを賢く処理します。権限移転条項と事業譲渡条項の区別など、従来 frontier モデルに難しかった課題も正確に解決します。 Substance の正確性、網羅性、文献引用の適切さは常に評価される強みでありました。
**クリエイティブコーディング（Cursor）：**非常に優れたコーディングモデルで、特に自律性と創造的推論が秀でており、CursorBench では Opus 4.6 を 58% から 70% に大幅に上回っています。
**複雑なワークフロー：**複雑なマルチステップワークフローにおいて、Opus 4.7 は明確な進化を示します。トークン消費を減らしつつも、Opus 4.6 に比べ 14% の性能向上を実現し、ツールエラーは約 3 分の 1 に削減されました。潜黙的需要（implicit-need）テストに合格した最初のモデルであり、以前 Opus を停止させツール失敗が引き起こす状況を、現在では継続実行可能です。これが Notion Agent を「真のチームメイト」にする信頼性の飛躍です。
**オーケストレーターエージェント：**評価において、コアオーケストレーターエージェントのツールコールおよび計画精度で桁違いの向上（ダブル・ディジット）が見られました。ユーザーが Hebbia を活用して検索やスライド作成、ドキュメント生成などのユースケースを計画・実行する際、Opus 4.7 はこれらのワークフローにおけるエージェント意思決定の改善可能性を示します。
**Rakuten SWE：**Rakuten-SWE-Bench において、Opus 4.6 と比較して 3 倍以上のプロダクションタスク解決率を達成し、コード品質およびテスト品質においても桁違いの向上（ダブル・ディジット）を見せています。これはチームが日常的にリリースしているエンジニアリング作業に対して、意味ある性能向上と明確なアップグレードです。
**コードレビュー（CodeRabbit）：**CodeRabbit のコードレビューワークロードにおいて、最も鋭敏なモデルとなりました。Recall が 10% 以上向上し、最も複雑な PR で発見が困難だったバグの surfaced も行いながら、精度は維持されています。GPT-5.4 xhigh に比べて Harness 上で若干高速で、ローンチ時に最大限のレビューワークロードに投入される予定です。
**スーパーエージェント（Genspark）：**Genspark の Super Agent において、最も重要な 3 つのプロダクション差別化要素（ループ耐性、一貫性、優雅なエラー回復）を完璧に満たします。中でもループ耐性が最も重要です。18 件のクエリの 1 つで無限ループに陥るモデルはリソースの浪費とユーザーブロックを引き起こしますが、Opus 4.7 は低分散（Lower Variance）を実現し、プロダクションにおける驚きを減らします。また、ツールコールあたりの品質比率においても最高水準を達成しています。
**ターミナル使用（Warp）：**Warp にとって Opus 4.7 は意味ある進化です。Opus 4.6 はすでに開発者向けに優秀なモデルの一角ですが、このモデルはそれ以上の徹底的な性能を示します。過去に失敗したターミナルベンチ課題をすべて通過し、Opus 4.6 が解決できなかった難しい並行性バグも克服しました。これが我々にとって重要なシグナルです。
**データインターフェース（未公開企業）：**ダッシュボードやデータ豊富なインタフェース構築において、世界最高クラスのモデルです。デザインセンスは驚くほど高く、実際にリリースしたいと思う選択をしてくれます。現在は私のデフォルトの日常用モデルとなっています。
**複雑な技術的作業（Quantium）：**Quantium におけるテストで最も能力の高いモデルです。独自ベンチマークソリューションによる主要 AI モデルとの比較では、最大限に重要な推論深度、構造化された問題設定、そして複雑な技術的作業において最大の改善が見られました。修正回数の削減、高速イテレーション、より強力な出力により、クライアントが持ってくる最も困難な課題を解決します。
**知性およびコード品質：**Opus 4.7 は知的レベルの明確なステップアップを感じさせます。コード品質は顕著に向上しており、以前に積み上がっていた無意味なラッパー関数やフォールバックスキャフォールディングを排除し、進行中に自身によるコード修正も実行します。Sonnet 3.7 から Claude 4 シリーズへ移行して以来の最もクリーンな進化です。
**自律的ペネトレーションテスト（XBOW）：**XBOW の自律的ペネトレーションテストの中核をなすコンピューティング使用において、新しい Opus 4.7 は段階的な変化を示します：視覚識別ベンチマークで 98.5% と Opus 4.6 の 54.5% を上回ります。これにより、Opus の最大痛みの一つ（自律的テストでの不備）が実質的に消滅し、以前は利用できなかった一連の作業カテゴリにアクセス可能になります。
**Vercel：**Vercel へのアップグレードで後退なしです。ワンショットコーディングタスクにおいて卓越しており、Opus 4.6 よりも正確で完結しています。自身の限界についても正直に認識する点でも顕著です。システムコードの動作前に証明論（proofs）を実行するという新しい振る舞いを示し、これは以前の Claude モデルには見られなかった特徴です。
**エンタープライズエンジニアリング（Factory Droids）：**Factory Droids において非常に強く、タスク成功率で Opus 4.6 の 10%〜15% の向上と、ツールエラーの減少、検証ステップへの追従信頼性の向上を実現しました。作業を途中で停止せず最後まで実行し続ける点は、エンタープライズエンジニアリングチームが必要としている能力です。
**自律開発：**Opus 4.7 は自律的に完全な Rust テキスト読み上げエンジン（ニューラルモデル、SIMD カーネル、ブラウザデモ）から一貫して構築しました。その出力を音声認識器にフィードバックし、Python リファレンスと一致するか検証します。数ヶ月のシニアエンジニアリング作業が自律的に完了しました。Opus 4.6 の進化は明確で、コードベースも公開されています。
**バグ修正（Qodo/未公開）：**TBench の 3 つのタスクを、以前の Claude モデルができなかった課題としてクリアし、先鋭的なモデルが見過ごしたバグ修正（例えば競合条件など）を実装します。真の課題の特定において高い精度を示し、他のモデルが諦めたり解決しなかった重要な発見も表面化させます。Qodo の実世界コードレビューベンチマークではトップクラスの実績です。
**ドキュメント分析（Databricks）：**Databricks OfficeQA Pro では、ソース情報との処理において Opus 4.6 に比べて 21% のエラー減少と、意味あるほど強力なドキュメント推論能力を示します。データに対するエージェント推論のベンチマーク全体を通じて、企業向けドキュメント分析において最も優れた Claude モデルです。
**エージェントチームワークフロー（Ramp）：**Ramp においては、エージェントチームワークフローにおいて Opus 4.7 が際立っています。役割忠実性、指示遵守、協調性、そしてツール・コードベース・デバッグコンテキストをまたぐエンジニアリングタスクにおける複雑な推論が強化されています。Opus 4.6 に比べステップバイステップのガイダンスを大幅に削減でき、エンジニアリングチームが運用する内部エージェントワークフローのスケーリングを助けます。
**アプリ構築（Bolt）：**Bolt の長時間かかるアプリ構築作業において、Opus 4.7 は Opus 4.6 よりも測定可能なほど優れており、最良のケースでは最大 10% の向上を実現し、高度なエージェントモデルに特有の後退現象を伴いません。ユーザーがシングルセッションでリリースできる可能性の上限（ceiling）を押し上げます。

初期テストからのハイライトと注釈

Opus 4.7 の先行評価から得られた主なハイライトと注釈です：

指示追従能力の向上 Opus 4.7 は、指示への従順性が大幅に向上しています。興味深いことに、これにより以前に設計されたプロンプトが、以前には稀に見られていた予期せぬ結果を生む可能性があります。旧来のモデルは指示を緩やかに解釈したり一部を省略したりしたが、Opus 4.7 は指示を文字通りに解釈します。ユーザーはそれに応じてプロンプトとハネス（ハンドラ）を見直す必要があります。

マルチモーダル支援の改善 Opus 4.7 は高解像度画像に対する視覚認識能力が向上しており、長辺で最大 2,576 ピクセル（約 375 万画素）の画像を受け付けることができます。これにより以前の Claude モデルの倍以上の画素数を扱うことができ、細部の視覚詳細に依存する多彩なマルチモーダル用途が開かれます：高密度スクリーンショットを処理するコンピューティングエージェント、複雑な図面からのデータ抽出、ピクセル単位の正確さが求められる作業などが挙げられます。（脚注 1: これはモデルレベルの変更であり API パラメータではないため、ユーザーが送信する画像は自動的に高忠実度で処理されます。高解像度の画像はより多くのトークンを消費するため、追加の詳細を必要としないユーザーは事前に画像をダウンサンプルしてから送信することを推奨します。）

現実的な業務パフォーマンス 金融エージェント評価における最先端スコア（上記表参照）に加え、内部テストにより Opus 4.7 は Opus 4.6 よりも効果的な財務アナリストであることが示されました。厳密な分析とモデル、よりプロフェッショナルなプレゼンテーション、タスク間の緊密な統合を生成します。さらに GDPval-AA（金融、法律、その他の分野における経済的価値ある知識作業を対象とした第三者評価）においても最先端のスコアを獲得しました。

メモリ機能 Opus 4.7 はファイルシステムベースのメモリの使用能力が向上しており、長期的で複数セッションにわたる作業において重要なノートを記憶し、それらを踏まえて新しいタスクへ移行します。その結果、事前のコンテキスト提供量が減少します。

安全性とアライメント

全体として、Opus 4.7 の安全性プロファイルは Opus 4.6 と類似しています。欺瞞、奉承、悪用協力などの懸念行動発生率は低く維持されています。一部の指標（誠実さや悪意ある「プロンプトインジェクション」攻撃への耐性など）では Opus 4.6 よりも改善が見られますが、他の指標（例：制御下物質に関する過剰な詳細な害削減アドバイスを与える傾向など）ではわずかに劣っています。アライメント評価の結果、「概ね適切にアライメントされており信頼性があるが、振る舞いにおいて完全に理想的とは言えない」と結論付けられました。なお、Mythos Preview は引き続き、当社の評価において最も安全にアライメントされたモデルとして位置づけられています。安全性に関する詳細評価は「Claude Opus 4.7 システムカード」にて全面議論されます。

**自動行動監査における不整合スコア：**この評価では Opus 4.7 は Opus 4.6 および Sonnet 4.6 に比べ若干の改善を示しますが、Mythos Preview が依然として最も低い不整合行動率を示しています。

同日にリリースされる更新内容

Claude Opus 4.7 以外にも、以下のアップデートを同時にリリースいたします：

**より詳細な努力制御（More Effort Control）：**Opus 4.7 は「xhigh（エクストラ・ハイレベル）」という新たな努力レベルを導入します。これは high と max の間に位置し、ユーザーにハード問題における推論とレイテンシーのトレードオフを細かく調整する余地を与えます。Claude Code では全てのプランにおいてデフォルト努力レベルを xhigh に引き上げます。コーディングおよびエージェント用途での Opus 4.7 テストでは、high または xhigh の努力レベルから開始することを推奨します。
**Claude Platform (API)：**高解像度画像のサポートに加え、タスク予算（task budgets）をパブリックベータとしてリリースし、開発者が Claude のトークン消費をガイドして、長時間にわたる作業において優先順位付けを行う手段を提供します。
Claude Code 内での拡張機能：
- 新しい
```
/ultrareview
```
  スラッシュコマンドは、変更内容を精査し、注意深いレビュアーが検出するバグやデザイン上の問題をフラッグするための専用レビューセッションを生成します。Pro と Max クラスのユーザーには無料で 3 回の ultrareview を提供しています。
- また、Auto モードを Max ユーザー向けに拡張しています。Auto モードは新たな権限オプションで、Claude がユーザーの代わりに意思決定を行い、中断が少ない長時間タスクを実行可能にします。これは許可を全てスキップした場合よりもリスクの低い実行方法です。

Opus 4.6 から Opus 4.7 への移行ガイド

Opus 4.7 は Opus 4.6 の直接的なアップグレードですが、トークン使用に影響する 2 つの変更点は計画すべき事項です。

トークナイザの更新：モデルがテキストを処理する方式が改善されました。ただし、トレードオフとして同じ入力がより多くのトークンにマップされることがあり、コンテンツタイプによって約 1.0〜1.35 倍の増加が見込まれます。
より深い思考プロセス：特にエージェント設定での後期ターンにおいて、高い努力レベルでより深く考えます。これは困難な問題における信頼性を高める一方で、出力トークンの数量を増加させます。ユーザーは以下の方法でトークン使用を制御できます：
- effort パラメータの利用
- タスク予算の調整
- モデルに対して簡潔さを促すプロンプティング

我々のテストでは、全体としてネット効果は有利であり、内部コーディング評価において全ての努力レベルにおけるトークン使用が改善されました（下記グラフ参照）が、実際のトラフィック上での差異は測定することを推奨します。詳細な移行アドバイスを含むガイドラインを用意しております。

![グラフ：各努力レベルにおけるトークン消費量の関数としての内部エージェントコーディング評価スコア] 注記：この評価では単一のプロンプトからの自律的作業が行われますが、インタラクティブコーディングにおけるトークン使用量を代表しない可能性があります。詳細は移行ガイドを参照ください。

これはモデルレベルの変更であり API パラメータではないため、ユーザーが送信する画像は自動的に高忠実度で処理されます。高解像度の画像はより多くのトークンを消費するため、追加の詳細を必要としないユーザーは事前に画像をダウンサンプルしてから送信することを推奨します。 GPT-5.4 および Gemini 3.1 Pro の場合は、API で利用可能な最高品質のモデルバージョンとの比較です（グラフおよび表）。 **MCP-Atlas：**Opus 4.6 のスコアは Scale AI の再考案された採点方法に従って更新されました。 **SWE-bench Verified, Pro, Multilingual：**これらの SWE-bench 評価において、記憶化スクリーンにより問題の一部がフラグされています。記憶化を示す問題を除外した際、Opus 4.7 の Opus 4.6 に対する改善幅は維持されます。 **Terminal-Bench 2.0：**思考を無効にした Terminus-2 ハネスを使用しました。全実験はタスクあたり最大 5 回の試行における平均資源配分（1 倍保証/3 倍上限）を使用しました。 **CyberGym：**Opus 4.6 のスコアは、サイバー能力を引き出すようにハネスパラメータを再設定したため、当初報告された 66.6 から 73.8 に更新されました。 **SWE-bench Multimodal：**Opus 4.7 および Opus 4.6 の双方で内部実装を使用しました。公開リーダーボードスコアとの直接的な比較はできません。

Japanese Translation:

Claude Opus 4.7 の初期テスト結果

初期テストからのハイライトと注釈

安全性とアライメント

同日にリリースされる更新内容

Opus 4.6 から Opus 4.7 への移行ガイド

関連コンテンツ

同じ日のほかのニュース