Claude Sonnet 5

2026/07/01 2:59

Claude Sonnet 5

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Claude Sonnet 5 は、プレミアム向けの Opus モデルに限定されていた高度な自律型機能を大幅に安価な価格で提供することで、AI のアクセシビリティにおいて大きな転換をもたらしました。これにより、性能格差は縮小しつつも、厳格な安全基準を維持しています。低廉なコストにもかかわらず、評価結果ではリスクのある行動が少ないことが示されており、Agent 型コンテキストにおいては Sonnet 4.6 よりも安全性が高く、開発などの危険なサイバーセキュリティタスクを実行する能力が限定的であるためデフォルトでサイバー防御機能が有効化されています。技術的な向上点には、初期コストを上げることなく処理効率を改善する新しいトークナイザーが含まれており、同じ入力が 1.0–1.35 倍多くのマッピングされたトークンに対応しますが、導入価格(入力/出力トークンあたり 2 ドル/10 ドル)を設定することでこの移行をほぼ費用対中立とします。2026 年 8 月 31 日以降には、標準的な価格(入力/出力トークンあたり 3 ドル/15 ドル)が適用されます。本モデルは、ブラウンフィールドコードの保守、多段階のソフトウェアエンジニアリング、法務調査など複雑なワークフローにおいて卓越したパフォーマンスを発揮します。チャット、Cowork、Claude Code、プラットフォーム全体におけるレート制限を引き上げることで、高度なエフォートレベルに伴う高いトークン利用量を対応可能です。最近のベンチマークスコアの見直しは、実際の品質低下を意味するものではなく、評価方法の更新によるものです。例えば、「コスト対性能チャート」の更新(変更ログ:2026 年 6 月 30 日)や、「Humanity's Last Exam」と OSWorld-Verified 評価におけるスコアの再計算は、標準的な手法を用いた実世界でのパフォーマンスをより正確に反映しています。Sonnet 5 は、無料プランからエンタープライズまでのすべてのサブスクリプションレベルで最適なデフォルト選択となり、広くユーザー層の即時かつ安全な導入を可能にします。

本文

Claude Sonnet 5:新たなエージェント標準

概要と性能の位置付け

Claude Sonnet 5 は、これまでで最も「エージェント性」を備えた Sonnet クラスのモデルとして設計されています。

  • 自律性の向上: 計画立案やブラウザ、ターミナルなどのツールの活用により、以前より大規模かつ高価なモデル(Opus クラス)が必要とされたレベルの自律性を発揮します。
  • 性能の高さ: Opus クラスにおける進歩を Sonnet クラスに持ち込みました。推論、ツールの使用、コーディング、知識業務など、エージェント性関連のパフォーマンス要素において前世代である Sonnet 4.6 に比べて大幅な改善が見られます。
  • コスト対性能: 性能は Opus 4.8 に近く、かつより低価格です。Sonnet 4.6 と Opus 4.8 の間のパフォーマンスギャップを効果的に縮めました。

安全性とサイバーセキュリティ

安全性評価により、Sonnet 5 は Sonnet 4.6 に比べて全体的に望ましくない振る舞いの発生率が低いことが確認されました。エージェント文脈下での使用においては一般的に安全です。

  • 安全性の向上
    • 悪意のあるリクエストへの拒否や、プロンプトインジェクション攻撃における耐性に優れています。
    • 幻覚現象(ハルシネーション)や迎合的な振る舞い(サイコファンシー)の発生率は Sonnet 4.6 よりも低いです。
  • サイバーセキュリティ評価
    • ソフトウェアエクスプロイト開発など、潜在的に危険な能力をテストした結果、Opus 4.8 や Mythos 5 に比べて著しく低いパフォーマンスを示しました(これは意図的なトレーニングの差によるものです)。
  • デフォルトの防護機能
    • 前世代よりも強力な防護機能を有するため、危険なサイバー利用をリアルタイムで検知・ブロックする機能はデフォルトで有効化されています。
    • これらの防護機能は、Claude Opus 4.7 および 4.8 と同一のものです。

異なる努力レベルにおける性能比較

エージェント性検索評価(BrowseComp)およびコンピューター使用評価(OSWorld-Verified)の結果では、以下の傾向が確認されています。

  • Sonnet 5 の特徴: Sonnet 4.6 に比べて厳密な改善を示し、Opus 4.8 よりもはるかに幅広いコスト対性能の選択肢を提供します。
  • コスト効率性: 中程度の努力レベルにおいて大幅に向上し、一部タスクでは高い努力設定下で Opus 4.8 の性能と匹敵します。
  • カスタマイズ性: ユーザーはコストと性能のバランスを取りながら、必要に応じて**「努力レベル」を調整して最適化**できます。

早期アクセスパートナーからのフィードバック

パートナー企業のテスト結果によると、「Sonnet 5 は前世代に比べてはるかにエージェント性が高く」と評価されています。複雑なタスクの完遂や自発的な出力チェックなど、以前では中途半端だった処理も安定して行うことが実証されました。

  • マルチステップソフトウェアエンジニアリング: 混乱した技術的文脈であっても、持続的なコーディング、ツールの使用、デバッグを適切に処理します。
  • エンドツーエンド自動化: 「Salesforce アカウントティアの更新」や「エンタープライズ連絡先へのローンチ告知送付」など、複数のタスクを即断即決で完遂できます。以前は停滞していましたが、現在は単一パスでの実行が可能になりました。
  • 効率性: 少ないリソースで多くの成果を出します。同じ品質維持の下で到達するステップ数を減らしており、安全でないリクエストへの拒否も清潔かつ一貫して行われます。
  • 実世界での検証: 数十件の困難な現実のプルリクエスト(PR)に対し、それぞれを単独でテスト済み且つ検証済みの結果へと導くことができました。
  • 自己修正: バグ調査の指示を受け、指示なしに再現テストを作成し、修復を実装・一時保存し、変更がない場合のバグ復元を確認するという一連の作業を単一のパスで遂行しました。

ドメイン特有の強み

特定の分野においても高いパフォーマンスを発揮します。

  • レガルトーク(Legal Tech): 既存コード(ブラウンフィールド)において得意です。失敗の原因に真正面から追跡し、一時的なパッチではなく持続可能な修復を提供します。
  • Eve の原告法務タスク: 法律研究および分析において明確な改善があり、コスト対性能の比率が Pareto 境界線上で動作しています。
  • ClickHouse エージェント: ライブデータを探索し、即座に洞察を生み出します。推論ステップを密にすることで、ユーザーの答え発見スピードを実際的に早めます。
  • 保険業務フロー: Pace 社などで運用されているシステム上で、提出受付や FNOL(損失通知)など、保険業務フローにおいて一貫して正しい行動を選択し、迅速に実行できます。

利用開始と価格設定

今日から全てのプランで Claude Sonnet 5 を利用可能です。

  • 対応プラン: Free プランおよび Pro プランではデフォルトモデルとして提供され、Max、Team、Enterprise ユーザーも利用可能。
  • 統合: Claude Code および Claude Platform でも利用可能です(2026 年 8 月 31 日まで特別価格)。
    • 初期価格 (Introductory Pricing): 入力トークン当たり 2 ドル、出力トークン当たり 10 ドル
    • 標準価格: その後、入力トークン当たり 3 ドル、出力トークン当たり 15 ドルに変更。
  • 開発者向け API:
    claude-sonnet-5
    を介して利用可能。
  • レート制限の引き上げ: Chat、Cowork、Claude Code、および Claude Platform でレート制限を引き上げました。より高い努力レベルに伴うトークン使用量の増加に対応しており、ユーザーは自らのプロジェクトに適合する適切なレベルを選択できます。

更新履歴と評価方法の訂正

  • 2026 年 6 月 30 日修正: 元の投稿バージョンでは BrowseComp 評価に基づくチャートが含まれていましたが、これは単純な方法論であり Sonnet 5 の性能を過小評価していました。現在は**Sonnet 5 システムカードでも採用されている標準的な方法論(10M トークン予算とコンパクション、プログラムによるツール呼び出し)**に基づいたチャートに更新しました。

追加のスコア訂正

  • Humanity's Last Exam: 判定モデルを更新し、Sonnet 4.6 のスコアを以下のように修正しました。
    • ツールなし:34.6%
    • ツールあり:46.8%
  • OSWorld-Verified: 実行方法を改訂し、リアルワールドでの性能を正確に反映するため、Sonnet 4.6 のスコアを**78.5%**に更新しました。

関連コンテンツ

  • [Claude Science]: 科学者向けの AI ワークベンチ。研究者が頻繁に使用するツールやパッケージが統合・カスタマイズ可能です。
  • [Claude Tag の紹介]: チームが Claude と協働するための新たな方法です。
  • [Anthropic がソウルオフィスを開設]: 韓国 AI エコシステムにおける新パートナーシップの発表。

脚注

  1. サイバー検証プログラム(Cyber Verification Program):

    • Sonnet 5 は当社のサイバー検証プログラムの一部であり、ネイティブな Claude Platform、AWS クラウド上の Claude Platform、Microsoft Foundry 内での Claude(Azure および Anthropic 上でホスト)、そしてまもなく Google Vertex 上での Claude で利用可能です。
    • 既にこのプログラムに参加している組織は、再申請なしで Sonnet 5 でも同様のアクセス権限を自動的に保有します。
    • 注意: 全体的には、ガードレールを低減させる必要があるサイバーセキュリティ業務についてはClaude Opus 4.8を推奨いたします。
  2. トークナイザーアップグレード:

    • Sonnet 5 は Sonnet 4.6 のアップグレードですが、新しいトークナイザーを採用しています(Claude Opus 4.7 と同様の変更)。
    • コストへの影響: 同一の入力はより多くのトークンにマッピングされる可能性があります。コンテンツの種類によりますが、約1.0~1.35 倍の増加が見込まれます。
    • 価格調整: 初期価格設定は、この移行がほぼコストニュートラルになるよう調整されています。
  3. レート制限の更新:

    • 2026 年 4 月 26 日に、ネイティブ Claude Platform で Sonnet および Haiku の全ての利用ティアにおけるレート制限を引き上げました。
    • ティア構成を簡素化し、Start、Build、Scaleの 3 つに統一しました。詳細は Claude Console またはドキュメントをご確認ください。

付録:評価詳細データ

サイバーセキュリティ評価の詳細

  • 対象: Firefox 147 のソフトウェア脆弱性に対するエクスプロイト開発成功率(Mozilla と協力して開発)。
  • 結果:
    • Sonnet モデルのいずれも、有効なエクスプロイトを開発することに成功せず(両方とも 0.0%)。
    • Sonnet 5 は Sonnet 4.6 よりやや高い部分的成功率を示しましたが、Opus 4.8 および Mythos 5 に比べてサイバー能力が著しく劣ります。
    • 詳細: 「Sonnet 5 システムカード」のセクション 3.2.4 を参照。

ズレた振る舞いの発生率(Misaligned Behavior Rates)

  • 内容: 多数の状況・文脈において広範な望ましくない振る舞いをテストした自動化された行動監査の結果。
  • 比較結果: Sonnet 5 は全体的に Sonnet 4.6 より低いズレた振る舞いの発生率を示しますが、Mythos Preview および Opus 4.8 よりはやや高い発生率です。
  • 詳細: 「Sonnet 5 システムカード」セクション 6.4 を参照。

同じ日のほかのニュース

一覧に戻る →

2026/07/01 0:44

Claude Code がリクエストに対してステガノグラフィーを用いて暗記している

## Japanese Translation: 地元の Claude Code バージョン 2.1.196 の最近の検査により、特定の条件下でシステムがデベロッパーのプロンプトに暗黙的に隠しデータを注入するセキュリティ慣行が発見されました。これは透明性の高い対策ではなく裏口を介したシグナルに依存することで信頼性を損ない、`ANTHROPIC_BASE_URL` が設定されており、かつシステムの時-zone が中国と一致するか、または特定の API ホスト名が検出された場合にのみコードがトリガーされます。これらの条件下で、プロンプトの句読点を改変—具体的には "Today's" のアポストロフィを、および日付の区切り文字を一括線からスラッシュに変更する—with 見えないユニコードマーカーを埋め込む。さらに、バインaries 内に base64 文字列として保存されたドメインおよびキーワードリスト(「DeepSeek」や「Zhipu」などの用語を含む)は XOR でデコードされ、潜在的な API リセラーまたはモデル蒸留攻撃を検出します。後端の脅威(無権限のプロキシなど)をブロックすることを意図されていますが、この論理はカスタムセットアップを使用する正当な開発者を懲罰し、AI に送信されるコンテキストに検出データを直接エンコードします。幸運にも、これらの特定の設定がないユーザーは変更を見ませんが、トリガー条件を満たす者はパッチが適用されるまで改変されたプロンプトを受けます。著者は、プロンプトの句読点にシグナルを隠すことは開発者の信頼を侵害し、セキュリティには明示的なポリシーに依存すべきだと主張しています。この機能をバイパスするのは、ホスト名の修正、時-zone の調整、またはバインりパッチ適用によって容易であると考えられています。

2026/07/01 6:29

脳波から単語へ:手術を必要としない新たなコミュニケーションの道筋

## Japanese Translation: 研究者らが、非侵襲的脳記録からリアルタイムでテキストへの変換を行えるエンドツーエンドの AI パイプライン「Brain2Qwerty v2」を公開しました。本システムは、磁気共鳴法(MEG)を用いて 10 時間にわたって 9 名の被験者から記録された約 2 万 2,000 の文を学習データとし、生信号に対してエンドツーエンドの深層学習を適用するとともに、ノイズの多い神経入力を活用するため到大規模言語モデルを微調整しています。一般化単語精度は 61% に達しており、これにより他の非侵襲的手法で一般的であった約 8% より著しく改善されました。最適な条件下では個人ごとの性能は最大 78% に向上し、すべての文の半分以上が 1 つ以下の子音エラーで復号化されました。パフォーマンスはデータ量に対して対数線形に拡張するため、規模拡大だけでもさらなる進歩が可能であることが示唆されます。v1 および v2 の完全な学習コードは、パートナー組織である BCBL よりも提供された v1 データセットとともに公開され、AI エージェントがパイプラインの最適化を支援し、最終的な構成はエンジニアによって手動で選択されました。この研究成果は、500 万ドル規模のデジタル・ブレイン・プロジェクトの一環として、Tribev2(知覚)、NeuralSet(拡張処理)、NeuralBench(評価)などとの並行して、オープンな基礎脳のモデルを推進しています。目的は、侵襲性脳プロスタネースと非侵襲的なアクセシビリティのギャップを埋め、脳病変の影響を受けた数百万人の患者に対してより迅速な診断・治療を可能にしつつ、孤立した研究活動を超えてオープン神経科学を進めることです。

2026/07/01 2:07

Claude サイエンス

## Japanese Translation: 現在の手稿は質が高いですが、キーポイント(Boltz-2、OpenFold3、および特定のエンタープライズプランなど)に含まれる具体的な技術的詳細が、物語の流れと同等の重みで表現されるよう、少し鋭く調整することができます。 **改善されたサマリー:** Claude Science は、Pro、Max、Team、Enterprise の各プランを通じて macOS と Linux で利用可能となった AI ネイティブ環境として、科学研究において大きな飛躍を示しています。その核心的な利点は、すべての結果に対して正確なコード、ソフトウェア環境(ローカル・ラップトップ、HPC ノード、GPU、または Modal 上で管理される)、および会話履歴を保持することで、完全な再現性を保証することにあります。従来のツールの違いとして、MCP コネクタを介して追加のインストールなしに 60 以上の科学的データベースと実験室ツール(ELN や NVIDIA の BioNeMo Toolkit(Evo 2、Boltz-2、OpenFold3 を特徴とする)などを含む特別エージェント)に直接接続します。 このプラットフォームはゲノム学、シングルセル RNA-seq、プロテオミクス、構造生物学、ケミニンフォマティクスといった高度な分野をサポートし、ユーザーがタンパク質、ゲノムトラック、化学構造をネイティブに検査可能にします。今後の開発には、分子設計のためのライブ 2D スキャッチャーや Slurm などのサーバー向けの自動スクリプト生成が含まれます。生のデータセットとコードをローカルに保持しつつ、強力な GPU リソースを活用することで、Claude Science は初期分析と出版の間の環境不一致を解消します。この統合されたアプローチにより、研究者およびバックグラウンドレビューヤーは参考文献の有効性を検証できるようになり、データ処理から最終的な検証までを単一かつ安全なインターフェース内で円滑化するワークフローが実現されます。

Claude Sonnet 5 | そっか~ニュース