概要:

Z ai の GLM-5.2 が、人工分析知能インデックス（Artificial Analysis Intelligence Index）v4.1 で最も高いパフォーマンスを発揮するオープンウェイトモデルとなりました。同モデルは GPT-5.5 を含む主要な専用システムと並ぶ 51 というスコアを達成しました。この飛躍により、タスクあたりのコストに対する知能の Pareto フロンティア上に位置しています。最適化された平均コストはタスクあたり約 0.46 ドルです（入出力トークンの価格設定はそれぞれ約 1.4 ドル/百万トークンおよび 0.26 ドル/キャッシュヒット/出力トークンに基づく）。その成功は、科学的推論（CritPt +16 ポイント）、コード生成（SciCode +7、TerminalBench +16）、銀行業務（tau3 +15）といった複雑な分野における大幅な向上により支えられており、GDPval-AA v2 スコアが 1524 で裏付けられています。

Z 会社の GLM-5.2：知能性とコスト効率のバランスに優れた新鋭オープンウェイトモデル

Z 社の新モデル**「GLM-5.2」は、人工分析知能インデックス（Artificial Analysis Intelligence Index）において、知能性とタスクあたりのコストのトレードオフを最適化したパレト・フロンティア**上に位置するトップクラスのオープンウェイトモデルとなりました。

主要な評価結果とベンチマーク成績

GLM-5.2 は GLM-5.1 と同規模ながら、知能性で大きく向上しています。

総合スコアの躍進
- 人工分析知能インデックス v4.1 で総スコア 51を獲得し、トップクラスのオープンウェイトモデルです。
- GLM-5.1（11 ポイント差）を大きく上回り、他社トップモデルであるMiniMax-M3（44）やDeepSeek V4 Pro（最大値 44）、Kimi K2.6（43）を凌駕しました。
科学推論・専門知識分野での顕著な改善
- 多くの評価項目で向上が見られ、特に科学推論分野の進歩が目覚ましいです。GLM-5.1 と比較した具体的な成績向上は以下の通りです。
  - CritPt（科学推論）: +16 ポイント（21% の向上）
  - HLE: +12 ポイント（40% の向上）
  - AA-LCR: +9 ポイント（71% の向上）
  - tau3 Banking: +15 ポイント（27% の向上）
  - SciCode: +7 ポイント（50% の向上）
- 追加ベンチマークでの成果も高く、**TerminalBench v2.1 で +16 ポイント（78% の改善）**を記録。また、**GPQA Diamond は 3 ポイント上昇して 89%**の高精度を発揮しました。
エージェント性能における実戦力（GDPval-AA v2）
- 人間と対等に戦うエージェントの性能を測る指標で、すべてのオープンウェイトモデルを破りました。
  - スコア 1,524を獲得し、MiniMax-M3（1,418）や DeepSeek V4 Pro（最大値 1,328）を上回りました。
  - この成果は、**GPT-5.5（xhigh reasoning、スコア 1,514）**を含む闭源モデルとも同等水準であることを示しています。
- GDPval-AA v2 は、人間基準の Elo を 1000 に設定し、審査員をローテーションさせることでバイアスを排除。ターン上限を 250 まで引き上げるなど、長期タスクに対応するように設計されています。
AA-Omniscience インデックスでの改善
- スコアを4に伸ばし、GLM-5.1（2）から大幅な向上を果たしました。
- 精度の微細な調整と幻覚率の低下が成果の要因です（試行率は横ばい）。

パフォーマンスの詳細分析

トークン効率性に関する留意点

本モデルは高い知能性を実現するため、アウトプットトークンの消費量が多くなっています。

タスクあたりのアウトプットトークン: 43,000 トークンを使用します（その内訳で推論用 37,000 トークン）。
比較対象との差: GLM-5.1（26,000）、MiniMax-M3（24,000）、Kimi K2.6（35,000）、DeepSeek V4 Pro（最大値 37,000）と比較しても最も多いです。
結論: 知能性レベルに対してトークン効率はやや低く、コスト面ではパレト・フロンティア上の他のモデルとは位置が異なります。

コスト効率の比較

入力/出力単価は同等ですが、タスクあたりの総コストは高いです。

モデル	タスクあたりのコスト（ドル）	備考
DeepSeek V4 Pro	0.05	最も安価
MiniMax-M3	0.18
Kimi K2.6	0.31
GLM-5.1	0.25	旧世代モデル
GLM-5.2	約 0.46	高知能性を実現した代償として高コスト

重要: GLM-5.2 は「知能性に対するコスト」のバランス（パレトフロンティア）において、そのスコアレベルで最も少ないコストを実現しています。

モデル詳細仕様

ライセンス: MIT
パラメータ数:
- 総パラメータ数：7440 億
- 有効パラメータ数：400 億（GLM-5.1 と同等）
コンテキストウィンドウ: 100 万トークン（GLM-5.1 の 20 万から拡大）
入手方法:
- ファーストパーティ API（公式）
- サードパーティプロバイダー: DeepInfra、Novita、Nebius、Parasail、Siliconflow、GMI Cloud、Baseten、Fireworks など

アプローチと価格設定

価格構成（100 万トークンあたり）:
- インプット：1.4 ドル
- キャッシュヒット（入力キャッシュ）：0.26 ドル
- アウトプット：4.4 ドル
戦略: GLM-5.1 と同等の価格設定を維持しつつ、知能性を大幅に向上させています。

詳細ベンチマークデータの確認

人工分析知能インデックス v4.1 に含まれるすべての評価項目の詳細な結果 breakdown は、以下のリンクでご確認ください。

GLM-5.2 詳細比較レポートへ

Artificial Analysis の新しいリーディングオープンウェイトモデルは GLM-5.2 です。

Japanese Translation:

概要: