
2026/06/17 18:12
Artificial Analysis の新しいリーディングオープンウェイトモデルは GLM-5.2 です。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
Z ai の GLM-5.2 が、人工分析知能インデックス(Artificial Analysis Intelligence Index)v4.1 で最も高いパフォーマンスを発揮するオープンウェイトモデルとなりました。同モデルは GPT-5.5 を含む主要な専用システムと並ぶ 51 というスコアを達成しました。この飛躍により、タスクあたりのコストに対する知能の Pareto フロンティア上に位置しています。最適化された平均コストはタスクあたり約 0.46 ドルです(入出力トークンの価格設定はそれぞれ約 1.4 ドル/百万 トークンおよび 0.26 ドル/キャッシュヒット/出力トークンに基づく)。その成功は、科学的推論(CritPt +16 ポイント)、コード生成(SciCode +7、TerminalBench +16)、銀行業務(tau3 +15)といった複雑な分野における大幅な向上により支えられており、GDPval-AA v2 スコアが 1524 で裏付けられています。
本文
Z 会社の GLM-5.2:知能性とコスト効率のバランスに優れた新鋭オープンウェイトモデル
Z 社の新モデル**「GLM-5.2」は、人工分析知能インデックス(Artificial Analysis Intelligence Index)において、知能性とタスクあたりのコストのトレードオフを最適化したパレト・フロンティア**上に位置するトップクラスのオープンウェイトモデルとなりました。
主要な評価結果とベンチマーク成績
GLM-5.2 は GLM-5.1 と同規模ながら、知能性で大きく向上しています。
-
総合スコアの躍進
- 人工分析知能インデックス v4.1 で総スコア 51を獲得し、トップクラスのオープンウェイトモデルです。
- GLM-5.1(11 ポイント差)を大きく上回り、他社トップモデルであるMiniMax-M3(44)やDeepSeek V4 Pro(最大値 44)、Kimi K2.6(43)を凌駕しました。
-
科学推論・専門知識分野での顕著な改善
- 多くの評価項目で向上が見られ、特に科学推論分野の進歩が目覚ましいです。GLM-5.1 と比較した具体的な成績向上は以下の通りです。
- CritPt(科学推論): +16 ポイント(21% の向上)
- HLE: +12 ポイント(40% の向上)
- AA-LCR: +9 ポイント(71% の向上)
- tau3 Banking: +15 ポイント(27% の向上)
- SciCode: +7 ポイント(50% の向上)
- 追加ベンチマークでの成果も高く、**TerminalBench v2.1 で +16 ポイント(78% の改善)**を記録。また、**GPQA Diamond は 3 ポイント上昇して 89%**の高精度を発揮しました。
- 多くの評価項目で向上が見られ、特に科学推論分野の進歩が目覚ましいです。GLM-5.1 と比較した具体的な成績向上は以下の通りです。
-
エージェント性能における実戦力(GDPval-AA v2)
- 人間と対等に戦うエージェントの性能を測る指標で、すべてのオープンウェイトモデルを破りました。
- スコア 1,524を獲得し、MiniMax-M3(1,418)や DeepSeek V4 Pro(最大値 1,328)を上回りました。
- この成果は、**GPT-5.5(xhigh reasoning、スコア 1,514)**を含む闭源モデルとも同等水準であることを示しています。
- GDPval-AA v2 は、人間基準の Elo を 1000 に設定し、審査員をローテーションさせることでバイアスを排除。ターン上限を 250 まで引き上げるなど、長期タスクに対応するように設計されています。
- 人間と対等に戦うエージェントの性能を測る指標で、すべてのオープンウェイトモデルを破りました。
-
AA-Omniscience インデックスでの改善
- スコアを4に伸ばし、GLM-5.1(2)から大幅な向上を果たしました。
- 精度の微細な調整と幻覚率の低下が成果の要因です(試行率は横ばい)。
パフォーマンスの詳細分析
トークン効率性に関する留意点
本モデルは高い知能性を実現するため、アウトプットトークンの消費量が多くなっています。
- タスクあたりのアウトプットトークン: 43,000 トークンを使用します(その内訳で推論用 37,000 トークン)。
- 比較対象との差: GLM-5.1(26,000)、MiniMax-M3(24,000)、Kimi K2.6(35,000)、DeepSeek V4 Pro(最大値 37,000)と比較しても最も多いです。
- 結論: 知能性レベルに対してトークン効率はやや低く、コスト面ではパレト・フロンティア上の他のモデルとは位置が異なります。
コスト効率の比較
入力/出力単価は同等ですが、タスクあたりの総コストは高いです。
| モデル | タスクあたりのコスト(ドル) | 備考 |
|---|---|---|
| DeepSeek V4 Pro | 0.05 | 最も安価 |
| MiniMax-M3 | 0.18 | |
| Kimi K2.6 | 0.31 | |
| GLM-5.1 | 0.25 | 旧世代モデル |
| GLM-5.2 | 約 0.46 | 高知能性を実現した代償として高コスト |
重要: GLM-5.2 は「知能性に対するコスト」のバランス(パレトフロンティア)において、そのスコアレベルで最も少ないコストを実現しています。
モデル詳細仕様
- ライセンス: MIT
- パラメータ数:
- 総パラメータ数:7440 億
- 有効パラメータ数:400 億(GLM-5.1 と同等)
- コンテキストウィンドウ: 100 万トークン(GLM-5.1 の 20 万から拡大)
- 入手方法:
- ファーストパーティ API(公式)
- サードパーティプロバイダー: DeepInfra、Novita、Nebius、Parasail、Siliconflow、GMI Cloud、Baseten、Fireworks など
アプローチと価格設定
- 価格構成(100 万トークンあたり):
- インプット:1.4 ドル
- キャッシュヒット(入力キャッシュ):0.26 ドル
- アウトプット:4.4 ドル
- 戦略: GLM-5.1 と同等の価格設定を維持しつつ、知能性を大幅に向上させています。
詳細ベンチマークデータの確認
人工分析知能インデックス v4.1 に含まれるすべての評価項目の詳細な結果 breakdown は、以下のリンクでご確認ください。