
2026/06/27 2:06
次世代モデル「GPT‑5.6 Sol」の事前公開
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
OpenAI は、GPT-5.6 シリーズの限定プレビューを発表しました。本シリーズには、以下の 3 つの専用モデルが含まれます:Sol(最も堅牢な安全スタックを備えたフラグシップモデル)、Terra(バランス型/コストパフォーマンス型)、Luna(高速型/最低コスト型)。リリースでは、高リスク向けアプリケーションにおけるセキュリティと論理処理に重点を置き、Terminal-Bench 2.1 でコーディングに関する業界最高水準のベンチマークを設定し、GeneBench v1 でゲノム解析分野でも同様に最良の結果を示しました。Sol モデルは特筆すべき点として、「ultra mode」を搭載しており、サブエージェントを活用して複雑なタスクの処理を加速させるとともに、ExploitBench² において優れた結果を達成しています(同時に自律的に全チェーンエクスプロイトを生産することには達しておらず、すなわち Cyber Critical の閾値を越えていません)。Sol は 70 万以上の GPU タイムに及ぶ自動化および人間によるレッドチーム検証を通じて開発され、リアルタイムクラシファイアやアカウントレベルでの審査など、多層的なサファガードスタックを有しています。一般公開前には、アクセスは信頼されたパートナーと米政府関係者に限られ、7 月に専用 Cerebras ハードウェア上で選定顧客向けに展開される予定です。利用者からはキャッシュ読み取りに対する大幅な割引を通じてコスト削減を提供する差別化された価格設定層が提供されますが、初期段階ではフル API アクセスには制限があります。結果として、このリリースは高い機能性と厳格な安全プロトコル、そして明確なパフォーマンス・コストバリエーションを両立させた責任ある AI 導入のための新たな業界基準を確立しました。
本文
GPT-5.6 シリーズの限定的先行公開について
1. ローンチ概要と方針
製品ラインナップ
GPT-5.6 シリーズには以下の 3 つのモデルが含まれます。
- GPT-5.6 Sol: フラッグシップモデル。最も堅牢なセキュリティ対策スタックを搭載。
- GPT-5.6 Terra: 日常的な業務に最適なバランス型モデル。価格を半額(2 倍低減) にしました。
- GPT-5.6 Luna: 高速かつコスト効率の高いモデルで、最低のコストで強力な能力を実現します。
ローンチ戦略と背景
- 政府との協力: 米国政府との連携の一環として、計画とモデルの能力について事前にご紹介します。
- 限定的先行公開: まず信頼できる少数のパートナーを対象に、政府とも共有済みであることを前提とした限定的な公開を行います。その後、広範な一般公開へ移行します。
- 期間中:パートナーとの密接なテストと調整を続け、より広い範囲での利用に向けた準備を進めます。
- 長期ビジョン:
- 政府によるアクセス承認プロセスを長期的な標準とすべきではありません。最良のツールが必要な利用者、開発者、企業、サイバー防衛担当者に入手されることを妨げてはなりません。
- 短期的なこの措置は、大統領令に基づく枠組みや、将来のモデルリリース用の繰り返し可能なプロセスの開発に向けた一歩です。
2. 機能概要とパフォーマンス向上
主要な新機能
- 最大限の推論努力 (Max Reasoning Effort): 「Sol」に対して深く推論を行う際に時間を有効活用できるよう、新しい仕組みを導入します。
- ウルトラモード (Ultra Mode): サブエージェントを活用し、単一のエージェントの能力を超えて複雑なタスクを加速させます。
バENCHMARK での成果
各分野において業界最高水準(State of the Art)や大幅な向上が確認されました。
- コーディング
で計画立案、反復処理、ツールの調整を含むコマンドラインワークフローにおいて、新たな業界最高水準を示しました。Terminal-Bench 2.1
- 生物学 (バイオ)
で長期的なゲノム解析を評価。より少ないトークン消費で GPT-5.5 よりも優れた結果を達成しています。GeneBench v1
- サイバーセキュリティ
- 脆弱性調査や悪用といった長期的なセキュリティタスクの性能と効率性の境界線(Frontier)を変化させました。
: GPT-5.6 Sol は Mythos Preview と同程度の性能を実現しながら、出力トークン数は約 1/3 に抑えられています。ExploitBench²
: 推論能力を高めるにつれて、「Sol」「Terra」「Luna」すべてのモデルでセキュリティ能力の著しい向上が確認されました。ExploitGym³
3. セキュリティと防護体制
強化された防護スタック
「Sol」「Terra」「Luna」は、最も堅牢な防護策を備えつつ、各モデルの能力に合わせて最適化されています。
- 設計理念:
- コードレビュー、脆弱性調査、パッチ開発、デバッグなどの正当かつ有益な利用へのアクセスを確保します。
- 禁止された攻撃的活動を行うことをより困難で不確実かつ検知しやすいようにしつつ、有益な利用は制限しません。
- 目標: ツールが「発見者(Defenders)」に届き、弱点を発見・是正する仕組みを作ることです。
多層型防護アプローチ
単一の防護策では不十分であるため、複数のレイヤーを組み合わせたアプローチを採用しています。
- モデルレベル: ユーザーが悪意ある意図を偽装したり制約回避を試みたりしても、禁止されているサイバー支援を拒否します。これが最初の境界線です。
- リアルタイムチェック:
- 不適切な利用クラシファイアが生成過程で出力を評価・監視します。
- リスクの高いケースでは、会話と文脈を大規模推論モデルで審査するため、生成が一時的に停止され、保留される場合があります。
- アカウントレベル:
- ポリシー違反の疑いがある場合、関連する会話全体を対象とした審査をトリガーします。
- 単一の会話を超えて観察し、「永続的な悪意のある行動」と「正当なデュアルユース(両刃の剣)セキュリティ作業」を見分けます。
先行公開における注意点
- ブロックや遅延: テスト期間中は、防護策により一部リクエストがブロックされる、または生成停止による遅延が発生する可能性があります。
- 意図的介入: 防衛的活動と攻撃的活動が似て見える「デュアルユース」分野において、正当な作業に誤って介入することがあります。
- フィードバックの重要性: ご利用中の不快な体験(不要なブロックや遅延)は、リリース前の改善に役立ちます。
自動化的レッドチームングによる強化
攻撃者が戦術を変化させても効果を発揮するため、自己分析と第三者検証を徹底しています。
- 計算リソース投入: 汎用的なジャイルブレイク(制約回避)検出向けに、A100 相当の GPU 時間を70 万時間以上投入しました。
- 人間による検証: 固定された攻撃セットを超えた、創造的な専門家のレッドチームングも継続しています。
- 迅速対応: 新たに発見された弱点は優先順位付けされ、是正プロセスを経た後、将来のテストデータとして再利用されます。
4. 価格体系と利用開始
対象ユーザー
先行公開期間中は、API および Codex を通じて選り抜かれた信頼できるパートナーおよび組織のみを対象としています。近い将来に一般ユーザーへの提供も計画されています。
モデルごとの価格設定 (100 万トークンあたり)
| モデル名 | インパット価格 | アウトプット価格 | 特徴 |
|---|---|---|---|
| Sol | $5.00 | $30.00 | フラッグシップ・高能力 |
| Terra | $2.50 | $15.00 | バランス型・価格半額 |
| Luna | $1.00 | $6.00 | コスト効率・高速 |
キャッシュ機能とその他の技術情報
- キャッシュ機能: 予測可能なプロンプトキャッシュを導入。30 分間の最小キャッシュ寿命をサポート。
- 書き込み:Uncached インパットレートの 1.25 倍 の課金。
- 読み取り:引き続きインパットレートの 90% オフ で利用可能。
- Cerebras 利用: 「GPT-5.6 Sol」を 7 月に Cerebras 上で最大 750 トークン/秒 で起動予定。容量拡大に伴い、当初は選り抜かれた顧客のみがアクセス可能です。
5. 脚注・補足情報
- レイテンシーとコストの推定: モデルの実機動作をオフラインでシミュレーションした値です。実環境ではツール呼び出しやサンプリング数などに依存し、結果は異なる可能性があります。
- ExploitBench の評価条件: すべてのモデルは、5 つのシードと推論継続性を備えた ExploitBench API Harness を使用して評価されました。
- ExploitGym のリスケール:
- Alpha API で走行後に公開 API と速度を一致させるリスケールを実施。
- リスケールによるレイテンシー調整の影響で、一部の評価実行ではタイムアウト超過が発生しましたが、実環境での機能は維持されています。
- データ表記: レポートされていない出力トークンやコストを持つモデルは、水平点線のドットとしてプロットされます。