
2026/05/29 1:49
Claude Opus 4.8
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Claude Opus バージョン 4.8 が正式にリリースされ、前世代と比較してコストが同等あるいは優位でありながら、パフォーマンスと信頼性の大幅な向上を示しています。このアップグレードは、Super-Agent ベンチマークにおけるすべての課題を制覇した最初のモデルとなった点で重要なマイルストーンとなります。同時に、高速モードや Genie といった特定のオーケストレーターを通じて比較的低価格帯のプランでも、ハイエンドクラスの GPT-5.5 に匹敵する性能を提供します。重要なのは、以前の問題だったコード生成の不備やツール呼び出しのエラーが解決されており、モデルの誠実性の向上により、コードの不備を見逃す確率が約 4 分の一に抑制されたことです。新しいアーキテクチャは「動的ワークフロー」を導入し、フルコードベース移行など大規模なタスクのために数百もの並列サブエージェントを可能にします。また、「Effort Control」といった機能によりユーザーが応答の深さをカスタマイズでき、Messages API のシステムエントリーを通じて計算リソースを浪費せずにリアルタイムで指示を更新することも可能です。複雑な財務文書や法律文書の処理において、Genie や Hebbia などのオーケストレーターを利用する企業は、大幅に向上した効率性と引用の精度を享受できます。全体として、Opus 4.8 は優れた推論能力、ユーザーの自律性を支える親社会的なアライメント、そして以前の コストパフォーマンス記録を更新し得るエンドツーエンドの完了機能を備えています。
本文
Claude Opus 4.8:新機能と性能向上の発表
Claude Opus 4.8 がリリースされました。前世代である Opus 4.7 を踏襲し、主要なベンチマークで性能を向上させ、より信頼性の高いパートナーへと進化しました。本日は同等の利用料でご利用いただけます。
同日リリースの主な新機能
- claude.ai ユーザー向け:「努力レベル(リソース投入量)」の制御が可能になりました。
- Claude Code への追加機能:
- 「動的ワークフロー(Dynamic Workflows)」: 非常に大規模な問題に対処できるようになり、数百個の並列サブエージェントを実行できます。
- 「高速モード(Fast Mode)」: モデル処理速度を2.5 倍に向上させつつ、利用コストは3 分の 1に大幅に低下しました。
Claude Opus 4.8 の能力と評価
コーディング、推論、知識ワークタスクなどで Opus 4.8 と他モデルを比較したテスト結果の概要です。(詳細は Claude Opus 4.8 システムカード を参照)
協働体験の向上
初期ユーザーからは、エージェントタスクの実行において信頼性が高く、判断が鋭いという評価が寄せられています。
- 判断力の大幅な改善:
- 的確な質問を行い、自身のミスを捉えます。
- 計画が不十分であれば適切に異議を唱え、複雑な変更を加える前に十分な確信を得てから構築を進めます。
- スーパーエージェントベンチマーク:
- すべてのケースをエンドツーエンドで完了させた唯一のモデルとなりました。
- 前世代の Opus モデルおよび同等コストでの GPT-5.5 を上回る成績です。
- CursorBench:
- ツールの呼び出しが効率化され、必要なステップ数が減少しました。
- エンドツーエンドのタスクを確実に完了させる能力が向上しています。
- リーガルエージェントベンチマーク:
- 「全パス(all-pass)」基準において10% 以上のスコアを記録し、他モデルが達していない最高スコアです。
- 品質と速度:
- 高速化に加え、長距離セッションでの文脈やスタイルへの対応が飛躍的に改善しています。
- 「音」「味(审美感覚)」「技術的実行」を同時に必要とする業務において、ずっと信頼できるモデルです。
- コンピュータ操作:
- オンライン環境でのブラウザエージェントとして最も強力なスコア(84%)を記録し、Opus 4.7 や GPT-5.5 を大きく上回っています。
- ツールの呼び出し:
- 清潔かつ正確にツールを利用し、自律的なエンジニアリングワークロードで高い一貫性を発揮します。
- コメントの冗長さやツール呼び出しの問題が修正されました。
- 分析の品質:
- 情報密度が高く、出力速度も早くなりました。
- シグナル対ノイズ比が向上し、分析的な問題点を能動的に警告(フラグ)する傾向にあります。
- エンタープライズ AI(Genie / Databricks AI):
- 多段階の問いに対して高速に対処でき、トークンコストは61% の低下を実現しました。
- PDF や図面など非構造化コンテンツの直接分析が可能になりました。
- 金融ドキュメント(Hebbia):
- 引用の精度が向上し、検索時のトークン効率が大幅に改善しました。
- 真実性(Honesty):
- 裏付けのない主張を行う頻度が低く、自身の不確実性をフラグする可能性が高いです。
- コードの欠陥を許容する率は、前代モデルに比べて約4 分の 1に低下しています。
- 調整(Alignment):
- ユーザーの自律性を支援し、親社会性の尺度において新たな高水準に達しました。
- アライメントされていない振る舞いの発生率は前代モデルより低く、Claude Mythos Preview と同等の評価を受けました。
その他同日リリースの更新
- 動的ワークフローの詳細:
で大規模なマイグレーションなどを単一のセッションで実行可能にしました(数百個の並列サブエージェントの実行・検証)。Claude Code- 対象プラン: Enterprise, Team, Max プラン限定。
- 「努力レベル」制御の全プラン開放:
とclaude.ai
において、ユーザーが Claude の思考深度を選択できるようになりました。Cowork- 高い設定: 深く思考して質の高いレスポンスを提供(トークン消費増)。
- 低い設定: より速くレスポンスし、リミットを節約。
- Messages API の機能拡張:
- メッセージ配列内にシステムエントリーを受け付けるようになりました。
- プロンプトキャッシュの破損やユーザーターンでのアップデートルーターリングなしに、タスク中の指示を更新できます。
「努力レベル」について
- デフォルト設定: **「高い努力レベル」**が採用されています(品質と体験のバランス最適化)。
- コーディングタスク: Opus 4.7 と同等のトークン数で、より良いパフォーマンスを発揮します。
- 追加設定オプション:
- 「エクストラ」(xhigh): さらに多くのトークンを消費して最良の結果を得る(困難なタスクや長時間ワークフローに推奨)。
- 容量拡張: 高い努力レベルによるトークン使用量増に対応し、Claude Code のリミットを増設しました。
次に何があるか?
- コスト削減モデルの開発: Opus に準ずる能力を提供しつつ、コストをさらに下げた新モデルの開発中。
- Project Glasswing への展開:
を Cybersecurity タスクに小規模で導入しています。Claude Mythos Preview- 強力なサイバー安全対策の強化を進めており、数週間以内に全顧客へ展開する見込みです。
利用状況と料金
- 公開: 本日全世界で利用開始。
- **通常料 **(Opus 4.8):
- 入力トークン:1 米ドル/万 tokens(※原文「5 ドル」は 100 万単位表記より解釈上注意が必要ですが、提示テキストに従います)
- 出力トークン:25 米ドル/万 tokens(※同上、原文通り記述します:入力 5 ドル・出力 25 ドル / 100 万 tokens)
- 高速モード料:
- 入力トークン:10 米ドル / 100 万 tokens
- 出力トークン:50 米ドル / 100 万 tokens
- API ユーザー:
の名前で利用可能です。claude-opus-4-8
関連コンテンツ
- Anthropic はシリーズ H で 650 億ドルの資金調達を実現:ポストマネーバリュエーションは 9,650 億ドルに上昇しました。
- Anthropic がミラノオフィスを開設:イタリア企業のサポートと R&D を支援するため、欧州第 6 ヵ所目のオフィスです。
- Anthropic はキ・ユング・チョイ氏を韓国法人の代表へ任命:ソウルオフィス開設前の準備が進められています。