次世代モデル「GPT‑5.6 Sol」の事前公開

2026/06/27 2:06

次世代モデル「GPT‑5.6 Sol」の事前公開

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

OpenAI は、GPT-5.6 シリーズの限定プレビューを発表しました。本シリーズには、以下の 3 つの専用モデルが含まれます:Sol(最も堅牢な安全スタックを備えたフラグシップモデル)、Terra(バランス型/コストパフォーマンス型)、Luna(高速型/最低コスト型)。リリースでは、高リスク向けアプリケーションにおけるセキュリティと論理処理に重点を置き、Terminal-Bench 2.1 でコーディングに関する業界最高水準のベンチマークを設定し、GeneBench v1 でゲノム解析分野でも同様に最良の結果を示しました。Sol モデルは特筆すべき点として、「ultra mode」を搭載しており、サブエージェントを活用して複雑なタスクの処理を加速させるとともに、ExploitBench² において優れた結果を達成しています(同時に自律的に全チェーンエクスプロイトを生産することには達しておらず、すなわち Cyber Critical の閾値を越えていません)。Sol は 70 万以上の GPU タイムに及ぶ自動化および人間によるレッドチーム検証を通じて開発され、リアルタイムクラシファイアやアカウントレベルでの審査など、多層的なサファガードスタックを有しています。一般公開前には、アクセスは信頼されたパートナーと米政府関係者に限られ、7 月に専用 Cerebras ハードウェア上で選定顧客向けに展開される予定です。利用者からはキャッシュ読み取りに対する大幅な割引を通じてコスト削減を提供する差別化された価格設定層が提供されますが、初期段階ではフル API アクセスには制限があります。結果として、このリリースは高い機能性と厳格な安全プロトコル、そして明確なパフォーマンス・コストバリエーションを両立させた責任ある AI 導入のための新たな業界基準を確立しました。

本文

GPT-5.6 シリーズの限定的先行公開について

1. ローンチ概要と方針

製品ラインナップ

GPT-5.6 シリーズには以下の 3 つのモデルが含まれます。

  • GPT-5.6 Sol: フラッグシップモデル。最も堅牢なセキュリティ対策スタックを搭載。
  • GPT-5.6 Terra: 日常的な業務に最適なバランス型モデル。価格を半額(2 倍低減) にしました。
  • GPT-5.6 Luna: 高速かつコスト効率の高いモデルで、最低のコストで強力な能力を実現します。

ローンチ戦略と背景

  • 政府との協力: 米国政府との連携の一環として、計画とモデルの能力について事前にご紹介します。
  • 限定的先行公開: まず信頼できる少数のパートナーを対象に、政府とも共有済みであることを前提とした限定的な公開を行います。その後、広範な一般公開へ移行します。
    • 期間中:パートナーとの密接なテストと調整を続け、より広い範囲での利用に向けた準備を進めます。
  • 長期ビジョン:
    • 政府によるアクセス承認プロセスを長期的な標準とすべきではありません。最良のツールが必要な利用者、開発者、企業、サイバー防衛担当者に入手されることを妨げてはなりません。
    • 短期的なこの措置は、大統領令に基づく枠組みや、将来のモデルリリース用の繰り返し可能なプロセスの開発に向けた一歩です。

2. 機能概要とパフォーマンス向上

主要な新機能

  • 最大限の推論努力 (Max Reasoning Effort): 「Sol」に対して深く推論を行う際に時間を有効活用できるよう、新しい仕組みを導入します。
  • ウルトラモード (Ultra Mode): サブエージェントを活用し、単一のエージェントの能力を超えて複雑なタスクを加速させます。

バENCHMARK での成果

各分野において業界最高水準(State of the Art)や大幅な向上が確認されました。

  • コーディング
    • Terminal-Bench 2.1
      で計画立案、反復処理、ツールの調整を含むコマンドラインワークフローにおいて、新たな業界最高水準を示しました。
  • 生物学 (バイオ)
    • GeneBench v1
      で長期的なゲノム解析を評価。より少ないトークン消費で GPT-5.5 よりも優れた結果を達成しています。
  • サイバーセキュリティ
    • 脆弱性調査や悪用といった長期的なセキュリティタスクの性能と効率性の境界線(Frontier)を変化させました。
    • ExploitBench²
      : GPT-5.6 Sol は Mythos Preview と同程度の性能を実現しながら、出力トークン数は約 1/3 に抑えられています
    • ExploitGym³
      : 推論能力を高めるにつれて、「Sol」「Terra」「Luna」すべてのモデルでセキュリティ能力の著しい向上が確認されました。

3. セキュリティと防護体制

強化された防護スタック

「Sol」「Terra」「Luna」は、最も堅牢な防護策を備えつつ、各モデルの能力に合わせて最適化されています。

  • 設計理念:
    • コードレビュー、脆弱性調査、パッチ開発、デバッグなどの正当かつ有益な利用へのアクセスを確保します。
    • 禁止された攻撃的活動を行うことをより困難で不確実かつ検知しやすいようにしつつ、有益な利用は制限しません。
  • 目標: ツールが「発見者(Defenders)」に届き、弱点を発見・是正する仕組みを作ることです。

多層型防護アプローチ

単一の防護策では不十分であるため、複数のレイヤーを組み合わせたアプローチを採用しています。

  1. モデルレベル: ユーザーが悪意ある意図を偽装したり制約回避を試みたりしても、禁止されているサイバー支援を拒否します。これが最初の境界線です。
  2. リアルタイムチェック:
    • 不適切な利用クラシファイアが生成過程で出力を評価・監視します。
    • リスクの高いケースでは、会話と文脈を大規模推論モデルで審査するため、生成が一時的に停止され、保留される場合があります。
  3. アカウントレベル:
    • ポリシー違反の疑いがある場合、関連する会話全体を対象とした審査をトリガーします。
    • 単一の会話を超えて観察し、「永続的な悪意のある行動」と「正当なデュアルユース(両刃の剣)セキュリティ作業」を見分けます。

先行公開における注意点

  • ブロックや遅延: テスト期間中は、防護策により一部リクエストがブロックされる、または生成停止による遅延が発生する可能性があります。
  • 意図的介入: 防衛的活動と攻撃的活動が似て見える「デュアルユース」分野において、正当な作業に誤って介入することがあります。
  • フィードバックの重要性: ご利用中の不快な体験(不要なブロックや遅延)は、リリース前の改善に役立ちます。

自動化的レッドチームングによる強化

攻撃者が戦術を変化させても効果を発揮するため、自己分析と第三者検証を徹底しています。

  • 計算リソース投入: 汎用的なジャイルブレイク(制約回避)検出向けに、A100 相当の GPU 時間を70 万時間以上投入しました。
  • 人間による検証: 固定された攻撃セットを超えた、創造的な専門家のレッドチームングも継続しています。
  • 迅速対応: 新たに発見された弱点は優先順位付けされ、是正プロセスを経た後、将来のテストデータとして再利用されます。

4. 価格体系と利用開始

対象ユーザー

先行公開期間中は、API および Codex を通じて選り抜かれた信頼できるパートナーおよび組織のみを対象としています。近い将来に一般ユーザーへの提供も計画されています。

モデルごとの価格設定 (100 万トークンあたり)

モデル名インパット価格アウトプット価格特徴
Sol$5.00$30.00フラッグシップ・高能力
Terra$2.50$15.00バランス型・価格半額
Luna$1.00$6.00コスト効率・高速

キャッシュ機能とその他の技術情報

  • キャッシュ機能: 予測可能なプロンプトキャッシュを導入。30 分間の最小キャッシュ寿命をサポート。
    • 書き込み:Uncached インパットレートの 1.25 倍 の課金。
    • 読み取り:引き続きインパットレートの 90% オフ で利用可能。
  • Cerebras 利用: 「GPT-5.6 Sol」を 7 月に Cerebras 上で最大 750 トークン/秒 で起動予定。容量拡大に伴い、当初は選り抜かれた顧客のみがアクセス可能です。

5. 脚注・補足情報

  1. レイテンシーとコストの推定: モデルの実機動作をオフラインでシミュレーションした値です。実環境ではツール呼び出しやサンプリング数などに依存し、結果は異なる可能性があります。
  2. ExploitBench の評価条件: すべてのモデルは、5 つのシードと推論継続性を備えた ExploitBench API Harness を使用して評価されました。
  3. ExploitGym のリスケール:
    • Alpha API で走行後に公開 API と速度を一致させるリスケールを実施。
    • リスケールによるレイテンシー調整の影響で、一部の評価実行ではタイムアウト超過が発生しましたが、実環境での機能は維持されています。
  4. データ表記: レポートされていない出力トークンやコストを持つモデルは、水平点線のドットとしてプロットされます。

同じ日のほかのニュース

一覧に戻る →

2026/06/27 12:30

ワードスター:作家のためのワープロソフト(1996)

## Japanese Translation: Robert J. Sawyer は、確立されたフィクション作家が現代のデジタル時代においても 1978 年のテキストエディタ「WordStar」を使い続けることを情熱的に提唱している。Microsoft Word に代表される現代的なワープロソフトは派手なグラフィックや複雑なメニューを提供するが、執筆モードと編集モードの間でユーザーが精神的にギアを切り替えることを強制し、創造性を阻害することがしばしばある。これに対し、WordStar の安定したクラッシュフリーな環境は、深みのある創造的フローにとって不可欠な妨げのない空間を提供する。このソフトウェアは効率的な「コントロールキー」インターフェースに依存し、物理的な「手書きの頁」を模倣することで、作家が認知的不中断のまま自由にナビゲートすることを可能にしている。そのエルゴノミクス設計はプロのタッチタイピストを支え、カスタマイズ性はユーザーに適応させるため而非公式なワークフローを変えることを求める。このアプローチは、アーサー・C・クラークやジョージ・R・R・マーティンといった伝説的な作家からの称賛を得ており、彼らは新機能よりも安定性を重視している。現代的なアプリケーションによる精神的疲労を避けることで、本物の作家は草稿と作品の精査の間で流体様なる連続性を維持でき、古典的な技術が専門家のサイエンスファンタジー書きの要件に独特に適していることを示している。 ## Text to translate: Robert J. Sawyer passionately argues that established fiction authors should continue using WordStar, a robust text editor from 1978, even in the modern digital age. While contemporary word processors like Microsoft Word offer flashy graphics and complex menus, they often disrupt creativity by forcing users to switch mental gears between writing and editing modes. In contrast, WordStar's stable, crash-free environment provides a distraction-free space essential for deep creative flow. The software relies on an efficient "Control-key" interface and mimics a physical "long-hand page," allowing writers to navigate freely without cognitive interruption. Its ergonomic design supports professional touch typists, and its customizability adapts to the user rather than demanding they change their workflow. This approach has earned praise from legendary authors like Arthur C. Clarke and George R.R. Martin, who value stability over new features. By avoiding the mental fatigue of modern applications, serious writers can maintain a fluid continuum between drafting and refining their work, proving that classic technology remains uniquely suited for the demands of professional science fiction writing.

2026/06/25 13:06

旧ハードウェアでの Linux 運用:完全リバイバルガイド

## Japanese Translation: Linux ディストリビューションは、TPM 2.0 や低容量 RAM など過時硬件要件による電子廃棄物を解決する、Windows 11 の代替手段として有効な選択肢を提供します。Windows 11 はアイドル状態でも 3〜4GB のメモリで起動可能ですが、軽量オプションは遥かに少ない消費量を実現します。例えば、Xfce を使用した Ubuntu は約 650MB を、antiX(約 256MB)や Puppy Linux などの超軽量ディストリビューションは最低 256MB のマシンでも動作可能です。リソースが限られているユーザーには、2GB より少ない RAM のシステムには antiX が推奨され、2〜4GB の場合では Lubuntu(アイドル時約 480MB)、4GB 以上のマシンでは Linux Lite(アイドル時約 650MB)が適しています。なお、BunsenLabs Carbon などがサポートを終了する 2026 年 2 月には、古くからの 32 ビットハードウェアは互換性問題に直面します。 適切な OS を選ぶだけでなく、戦略的なアップグレードと調整により性能を大幅に向上させることも可能です。機械式ハードドライブを SATA SSD に置き換えることで、起動時間を 45 秒以上から 18 秒未満に短縮できます。上級ユーザーは診断のために `free -h`、`lscpu`、`lsblk` などのコマンドを使用し、zram 圧縮を有効化して RAM 容量を増大させるようにシミュレートし、swappiness 設定を 10 に下げて古いドライブへの磨耗を軽減し、不要なサービス(例:bluetooth、cups)を無効化し、キャッシュの無効化や広告ブロッカーを活用してブラウザのメモリ使用量を最適化するなどの措置应采取します。これらのステップにより、高価な新ハードウェア購入なしでレガシーマシンも効果的に動作させることが可能になります。

2026/06/27 7:43

なぜ運動エネルギーは速さに比例して増えるのではなく、その平方に比例して増えるのでしょうか?(2011 年)

## 日本語訳: 本テキストは、仕事や重力位置エネルギーなどの標準的な定義を用いず、純粋に機能的な議論を通じて運動エネルギーが速度の二乗に厳密に比例する ($KE \propto v^2$) ということを示しています。この基本的な関係性は、事前に知識を前提とせずに、2 つの具体的なシナリオを用いて確立されています。第一の論証は、質量をばね系で分離開るシステムの解析を行い、参照系を変え運動量保存則を利用することで、物体の速度を 2 倍にすると運動エネルギーは 4 倍になることを証明しています。第二の論証は、重力下でエネルギー蓄積装置と相互作用する物体を検討し、比例関係の上限を確立します:発射とキャッチングのプロセスにおける高さの制約を分析することで、物体をある速度から 2 倍の速度に加速させるのに必要なエネルギーが、その半分の速度に加速させるのに必要なエネルギーの正確な 4 倍であることを示しています。このアプローチは複雑な熱力学概念を用いずに、力学的理解のための簡素でありながら厳密な枠組みを提供します。それは、運動エネルギーの二次的なスケーリングが観測可能な運動学とばね動的に基づいて導出された結果であることを確認し、高度な公式がまだ導入されていない段階での物理原則の教育や機械システムの解析において理想的なツールとして機能することを示しています。 ## テキストを翻訳する: (必要な場合のみ;そうでなければ元のテキストを繰り返す) ## まとめ: 本テキストは、仕事や重力位置エネルギーなどの標準的な定義を用いず、純粋に機能的な議論を通じて運動エネルギーが速度の二乗に厳密に比例する ($KE \propto v^2$) ということを示しています。この基本的な関係性は、事前に知識を前提とせずに、2 つの具体的なシナリオを用いて確立されています。第一の論証は、質量をばね系で分離開るシステムの解析を行い、参照系を変え運動量保存則を利用することで、物体の速度を 2 倍にすると運動エネルギーは 4 倍になることを証明しています。第二の論証は、重力下でエネルギー蓄積装置と相互作用する物体を検討し、比例関係の上限を確立します:発射とキャッチングのプロセスにおける高さの制約を分析することで、物体をある速度から 2 倍の速度に加速させるのに必要なエネルギーが、その半分の速度に加速させるのに必要なエネルギーの正確な 4 倍であることを示しています。このアプローチは複雑な熱力学概念を用いずに、力学的理解のための簡素でありながら厳密な枠組みを提供します。それは、運動エネルギーの二次的なスケーリングが観測可能な運動学とばね動的に基づいて導出された結果であることを確認し、高度な公式がまだ導入されていない段階での物理原則の教育や機械システムの解析において理想的なツールとして機能することを示しています。

次世代モデル「GPT‑5.6 Sol」の事前公開 | そっか~ニュース