
2025/12/12 3:04
GPT-5.2
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
OpenAIのGPT‑5.2リリース
OpenAIは、プロフェッショナルな知識作業を対象とした3つのバリアント(Instant、Thinking、Pro)を含む新しいモデルシリーズGPT‑5.2を公開しています。
パフォーマンスハイライト
スピード & コスト: GPT‑5.2 Thinkingは、歴史的指標に基づくと、人間専門家のコストの1%未満で、出力速度が11倍以上速いです。
精度: GDPval(44職種)では、Thinkingが新しい最先端70.9 %を達成し、業界プロフェッショナルを70.9 %のタスクで上回ります。また、SWE‑Bench Proで55.6 %、SWE‑Bench Verifiedで80 %を達成し、幻覚(hallucinations)を約30 %削減します。
長文コンテキスト & ビジョン: モデルはOpenAI MRCRv2(≈100 %精度、256kトークン)で新たな最先端を設定し、チャート推論とソフトウェアインターフェース理解のエラー率を半減します。
ツール使用: GPT‑5.2 ThinkingはTau2‑bench Telecomで98.7 %を達成し、遅延感受性ワークフローにおいてGPT‑5.1を上回ります。
科学ベンチマーク: ProはGPQA Diamondで93.2 %、FrontierMath(Tier 1–3)で40.3 %成功率、ARC‑AGI‑1で>90 %を達成し、ThinkingはARC‑AGI‑2で54.2 %を記録します。
ユーザーへの影響
平均的なChatGPT Enterpriseユーザーは毎日40–60分の節約を報告しており、重度利用者は週に10時間以上削減しています。この効率向上により、特定タスクの人件費が99 %超で削減される可能性があります。
インプリケーション
GPT‑5.2の広範な機能(スプレッドシート、プレゼンテーション、コード、画像認識、長文コンテキスト推論、ツール使用、複雑な多段階プロジェクト)は、金融・ソフトウェア工学・科学研究などのプロフェッショナルドメインでAI採用を加速させる位置づけです。
本文
GPT‑5.2のご紹介 – プロフェッショナル向け知識作業において最も高性能なモデルシリーズ
主なハイライト
- 平均節約時間:
- ChatGPT Enterpriseユーザー: 1日40〜60 分
- ハードユーザー: 週10 時間以上
- 機能性:
- スプレッドシート、プレゼンテーション、コード、画像認識、長文コンテキスト理解、ツール利用、複雑な多段階プロジェクト
- ベンチマーク:
- GDPval – 44職種で業界専門家を上回る性能
- SWE‑Bench Pro – 55.6 %(4言語)
- MRCRv2 – 256kトークンバリアントでほぼ100 %の正確性
- Vision – チャート推論・インターフェース理解においてエラー率を半減
モデルバリエーションと提供状況
| バリアント | 説明 | 利用可能 |
|---|---|---|
| GPT‑5.2 Instant | 日常業務(情報検索、How‑to、翻訳)に適した高速ワークホース | ChatGPT: Plus/Pro/Business/Enterprise; API: |
| GPT‑5.2 Thinking | コーディング、長文要約、段階的推論・計画などのディープワーク | ChatGPT: 同上; API: (レスポンス&チャット完了) |
| GPT‑5.2 Pro | 難問への高品質応答。プログラミングや複雑領域での重大エラーが少ない | ChatGPT: 同上; API: |
すべてのバリアントは新しい「xhigh」推論努力に対応しています。
パフォーマンスハイライト
- GDPval(知識作業):
- GPT‑5.2 Thinking はタスク70.9 %でトップ専門家と同等または上回る
-
11倍の速度、1 %未満のコストでエキスパートに匹敵
- スプレッドシート・プレゼンテーションタスク:
- GPT‑5.1(59.1 %)から68.4 %へ平均点が9.3 %向上(ジュニア投資銀行アナリストベンチマーク)
- SWE‑Bench Pro: 55.6 %(4言語) – このレベルを達成した最初のモデル
- 長文コンテキスト推論:
- MRCRバリアント256kトークンでほぼ100 %正確性
- 拡張ワークフロー向けにレスポンス/コンパクトエンドポイントをサポート
- Vision:
- 空間理解が強化され、低品質画像でも境界ボックス予測精度が向上
- ツール利用・マルチターンタスク:
- Tau2‑bench Telecom(ツール信頼性)で98.7 %
- レイテンシーセンシティブケースでの推論速度も改善
安全性と信頼性
- GPT‑5安全完結研究を継承
- 自殺・自傷・精神健康危機に対する感受性対応が向上
- すべてのバリアントで望ましくない応答を減らすターゲット介入
- 18歳未満ユーザー保護用コンテンツ制御として、年齢予測モデルを初期展開
価格(API)
| トークンタイプ | GPT‑5.2 Thinking / Pro | GPT‑5.1 |
|---|---|---|
| 入力 | $1.75 / Mトークン(キャッシュ済み入力に90 %割引) | 低い |
| 出力 | $14 / Mトークン | 低い |
高単価でもトークン効率が高く、同等の品質を得るコストは実際には安価です。
デプロイとサポート
- ChatGPT: 段階的展開。Plus・Pro・Go・Business・Enterpriseプランで今日から利用可能。GPT‑5.1 は3か月間レガシーモデルとして残ります。
- API: Thinking と Instant が即時利用可能。Pro はレスポンスAPIにて提供。推論パラメータが調整可能です。
- 将来計画: 現在のところ古いモデルは非推奨にならず、Codex最適化版 GPT‑5.2 も近日登場予定。
パートナーシップとインフラ
NVIDIA(H100, H200, GB200-NVL72 GPU)および Microsoft Azure データセンターで構築し、スケーラブルなトレーニングとデプロイを実現しています。
付録 – ベンチマークスコア
| ドメイン | モデル | スコア |
|---|---|---|
| 専門的コーディング | GPT‑5.2 Thinking | 55.6 %(SWE‑Bench Pro) |
| 事実性 | GPT‑5.2 Thinking | — |
| 長文コンテキスト | GPT‑5.2 Thinking | MRCRv2 256kトークンでほぼ100 % |
| Vision | GPT‑5.2 Thinking | チャート推論のエラー率を半減 |
| ツール利用 | GPT‑5.2 Thinking | Tau2‑bench Telecomで98.7 % |
| 学術要旨推論 | GPT‑5.2 Pro | 92.4 %(GPQA Diamond) |
ベンチマークは最大推論努力(APIではxhigh、ChatGPT Proではheavy)で実施。