
2026/07/01 2:59
Claude Sonnet 5
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Claude Sonnet 5 は、プレミアム向けの Opus モデルに限定されていた高度な自律型機能を大幅に安価な価格で提供することで、AI のアクセシビリティにおいて大きな転換をもたらしました。これにより、性能格差は縮小しつつも、厳格な安全基準を維持しています。低廉なコストにもかかわらず、評価結果ではリスクのある行動が少ないことが示されており、Agent 型コンテキストにおいては Sonnet 4.6 よりも安全性が高く、開発などの危険なサイバーセキュリティタスクを実行する能力が限定的であるためデフォルトでサイバー防御機能が有効化されています。技術的な向上点には、初期コストを上げることなく処理効率を改善する新しいトークナイザーが含まれており、同じ入力が 1.0–1.35 倍多くのマッピングされたトークンに対応しますが、導入価格(入力/出力トークンあたり 2 ドル/10 ドル)を設定することでこの移行をほぼ費用対中立とします。2026 年 8 月 31 日以降には、標準的な価格(入力/出力トークンあたり 3 ドル/15 ドル)が適用されます。本モデルは、ブラウンフィールドコードの保守、多段階のソフトウェアエンジニアリング、法務調査など複雑なワークフローにおいて卓越したパフォーマンスを発揮します。チャット、Cowork、Claude Code、プラットフォーム全体におけるレート制限を引き上げることで、高度なエフォートレベルに伴う高いトークン利用量を対応可能です。最近のベンチマークスコアの見直しは、実際の品質低下を意味するものではなく、評価方法の更新によるものです。例えば、「コスト対性能チャート」の更新(変更ログ:2026 年 6 月 30 日)や、「Humanity's Last Exam」と OSWorld-Verified 評価におけるスコアの再計算は、標準的な手法を用いた実世界でのパフォーマンスをより正確に反映しています。Sonnet 5 は、無料プランからエンタープライズまでのすべてのサブスクリプションレベルで最適なデフォルト選択となり、広くユーザー層の即時かつ安全な導入を可能にします。
本文
Claude Sonnet 5:新たなエージェント標準
概要と性能の位置付け
Claude Sonnet 5 は、これまでで最も「エージェント性」を備えた Sonnet クラスのモデルとして設計されています。
- 自律性の向上: 計画立案やブラウザ、ターミナルなどのツールの活用により、以前より大規模かつ高価なモデル(Opus クラス)が必要とされたレベルの自律性を発揮します。
- 性能の高さ: Opus クラスにおける進歩を Sonnet クラスに持ち込みました。推論、ツールの使用、コーディング、知識業務など、エージェント性関連のパフォーマンス要素において前世代である Sonnet 4.6 に比べて大幅な改善が見られます。
- コスト対性能: 性能は Opus 4.8 に近く、かつより低価格です。Sonnet 4.6 と Opus 4.8 の間のパフォーマンスギャップを効果的に縮めました。
安全性とサイバーセキュリティ
安全性評価により、Sonnet 5 は Sonnet 4.6 に比べて全体的に望ましくない振る舞いの発生率が低いことが確認されました。エージェント文脈下での使用においては一般的に安全です。
- 安全性の向上
- 悪意のあるリクエストへの拒否や、プロンプトインジェクション攻撃における耐性に優れています。
- 幻覚現象(ハルシネーション)や迎合的な振る舞い(サイコファンシー)の発生率は Sonnet 4.6 よりも低いです。
- サイバーセキュリティ評価
- ソフトウェアエクスプロイト開発など、潜在的に危険な能力をテストした結果、Opus 4.8 や Mythos 5 に比べて著しく低いパフォーマンスを示しました(これは意図的なトレーニングの差によるものです)。
- デフォルトの防護機能
- 前世代よりも強力な防護機能を有するため、危険なサイバー利用をリアルタイムで検知・ブロックする機能はデフォルトで有効化されています。
- これらの防護機能は、Claude Opus 4.7 および 4.8 と同一のものです。
異なる努力レベルにおける性能比較
エージェント性検索評価(BrowseComp)およびコンピューター使用評価(OSWorld-Verified)の結果では、以下の傾向が確認されています。
- Sonnet 5 の特徴: Sonnet 4.6 に比べて厳密な改善を示し、Opus 4.8 よりもはるかに幅広いコスト対性能の選択肢を提供します。
- コスト効率性: 中程度の努力レベルにおいて大幅に向上し、一部タスクでは高い努力設定下で Opus 4.8 の性能と匹敵します。
- カスタマイズ性: ユーザーはコストと性能のバランスを取りながら、必要に応じて**「努力レベル」を調整して最適化**できます。
早期アクセスパートナーからのフィードバック
パートナー企業のテスト結果によると、「Sonnet 5 は前世代に比べてはるかにエージェント性が高く」と評価されています。複雑なタスクの完遂や自発的な出力チェックなど、以前では中途半端だった処理も安定して行うことが実証されました。
- マルチステップソフトウェアエンジニアリング: 混乱した技術的文脈であっても、持続的なコーディング、ツールの使用、デバッグを適切に処理します。
- エンドツーエンド自動化: 「Salesforce アカウントティアの更新」や「エンタープライズ連絡先へのローンチ告知送付」など、複数のタスクを即断即決で完遂できます。以前は停滞していましたが、現在は単一パスでの実行が可能になりました。
- 効率性: 少ないリソースで多くの成果を出します。同じ品質維持の下で到達するステップ数を減らしており、安全でないリクエストへの拒否も清潔かつ一貫して行われます。
- 実世界での検証: 数十件の困難な現実のプルリクエスト(PR)に対し、それぞれを単独でテスト済み且つ検証済みの結果へと導くことができました。
- 自己修正: バグ調査の指示を受け、指示なしに再現テストを作成し、修復を実装・一時保存し、変更がない場合のバグ復元を確認するという一連の作業を単一のパスで遂行しました。
ドメイン特有の強み
特定の分野においても高いパフォーマンスを発揮します。
- レガルトーク(Legal Tech): 既存コード(ブラウンフィールド)において得意です。失敗の原因に真正面から追跡し、一時的なパッチではなく持続可能な修復を提供します。
- Eve の原告法務タスク: 法律研究および分析において明確な改善があり、コスト対性能の比率が Pareto 境界線上で動作しています。
- ClickHouse エージェント: ライブデータを探索し、即座に洞察を生み出します。推論ステップを密にすることで、ユーザーの答え発見スピードを実際的に早めます。
- 保険業務フロー: Pace 社などで運用されているシステム上で、提出受付や FNOL(損失通知)など、保険業務フローにおいて一貫して正しい行動を選択し、迅速に実行できます。
利用開始と価格設定
今日から全てのプランで Claude Sonnet 5 を利用可能です。
- 対応プラン: Free プランおよび Pro プランではデフォルトモデルとして提供され、Max、Team、Enterprise ユーザーも利用可能。
- 統合: Claude Code および Claude Platform でも利用可能です(2026 年 8 月 31 日まで特別価格)。
- 初期価格 (Introductory Pricing): 入力トークン当たり 2 ドル、出力トークン当たり 10 ドル
- 標準価格: その後、入力トークン当たり 3 ドル、出力トークン当たり 15 ドルに変更。
- 開発者向け API:
を介して利用可能。claude-sonnet-5 - レート制限の引き上げ: Chat、Cowork、Claude Code、および Claude Platform でレート制限を引き上げました。より高い努力レベルに伴うトークン使用量の増加に対応しており、ユーザーは自らのプロジェクトに適合する適切なレベルを選択できます。
更新履歴と評価方法の訂正
- 2026 年 6 月 30 日修正: 元の投稿バージョンでは BrowseComp 評価に基づくチャートが含まれていましたが、これは単純な方法論であり Sonnet 5 の性能を過小評価していました。現在は**Sonnet 5 システムカードでも採用されている標準的な方法論(10M トークン予算とコンパクション、プログラムによるツール呼び出し)**に基づいたチャートに更新しました。
追加のスコア訂正
- Humanity's Last Exam: 判定モデルを更新し、Sonnet 4.6 のスコアを以下のように修正しました。
- ツールなし:34.6%
- ツールあり:46.8%
- OSWorld-Verified: 実行方法を改訂し、リアルワールドでの性能を正確に反映するため、Sonnet 4.6 のスコアを**78.5%**に更新しました。
関連コンテンツ
- [Claude Science]: 科学者向けの AI ワークベンチ。研究者が頻繁に使用するツールやパッケージが統合・カスタマイズ可能です。
- [Claude Tag の紹介]: チームが Claude と協働するための新たな方法です。
- [Anthropic がソウルオフィスを開設]: 韓国 AI エコシステムにおける新パートナーシップの発表。
脚注
-
サイバー検証プログラム(Cyber Verification Program):
- Sonnet 5 は当社のサイバー検証プログラムの一部であり、ネイティブな Claude Platform、AWS クラウド上の Claude Platform、Microsoft Foundry 内での Claude(Azure および Anthropic 上でホスト)、そしてまもなく Google Vertex 上での Claude で利用可能です。
- 既にこのプログラムに参加している組織は、再申請なしで Sonnet 5 でも同様のアクセス権限を自動的に保有します。
- 注意: 全体的には、ガードレールを低減させる必要があるサイバーセキュリティ業務についてはClaude Opus 4.8を推奨いたします。
-
トークナイザーアップグレード:
- Sonnet 5 は Sonnet 4.6 のアップグレードですが、新しいトークナイザーを採用しています(Claude Opus 4.7 と同様の変更)。
- コストへの影響: 同一の入力はより多くのトークンにマッピングされる可能性があります。コンテンツの種類によりますが、約1.0~1.35 倍の増加が見込まれます。
- 価格調整: 初期価格設定は、この移行がほぼコストニュートラルになるよう調整されています。
-
レート制限の更新:
- 2026 年 4 月 26 日に、ネイティブ Claude Platform で Sonnet および Haiku の全ての利用ティアにおけるレート制限を引き上げました。
- ティア構成を簡素化し、Start、Build、Scaleの 3 つに統一しました。詳細は Claude Console またはドキュメントをご確認ください。
付録:評価詳細データ
サイバーセキュリティ評価の詳細
- 対象: Firefox 147 のソフトウェア脆弱性に対するエクスプロイト開発成功率(Mozilla と協力して開発)。
- 結果:
- Sonnet モデルのいずれも、有効なエクスプロイトを開発することに成功せず(両方とも 0.0%)。
- Sonnet 5 は Sonnet 4.6 よりやや高い部分的成功率を示しましたが、Opus 4.8 および Mythos 5 に比べてサイバー能力が著しく劣ります。
- 詳細: 「Sonnet 5 システムカード」のセクション 3.2.4 を参照。
ズレた振る舞いの発生率(Misaligned Behavior Rates)
- 内容: 多数の状況・文脈において広範な望ましくない振る舞いをテストした自動化された行動監査の結果。
- 比較結果: Sonnet 5 は全体的に Sonnet 4.6 より低いズレた振る舞いの発生率を示しますが、Mythos Preview および Opus 4.8 よりはやや高い発生率です。
- 詳細: 「Sonnet 5 システムカード」セクション 6.4 を参照。