Artificial Analysis の新しいリーディングオープンウェイトモデルは GLM-5.2 です。

2026/06/17 18:12

Artificial Analysis の新しいリーディングオープンウェイトモデルは GLM-5.2 です。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:

Z ai の GLM-5.2 が、人工分析知能インデックス(Artificial Analysis Intelligence Index)v4.1 で最も高いパフォーマンスを発揮するオープンウェイトモデルとなりました。同モデルは GPT-5.5 を含む主要な専用システムと並ぶ 51 というスコアを達成しました。この飛躍により、タスクあたりのコストに対する知能の Pareto フロンティア上に位置しています。最適化された平均コストはタスクあたり約 0.46 ドルです(入出力トークンの価格設定はそれぞれ約 1.4 ドル/百万 トークンおよび 0.26 ドル/キャッシュヒット/出力トークンに基づく)。その成功は、科学的推論(CritPt +16 ポイント)、コード生成(SciCode +7、TerminalBench +16)、銀行業務(tau3 +15)といった複雑な分野における大幅な向上により支えられており、GDPval-AA v2 スコアが 1524 で裏付けられています。

本文

Z 会社の GLM-5.2:知能性とコスト効率のバランスに優れた新鋭オープンウェイトモデル

Z 社の新モデル**「GLM-5.2」は、人工分析知能インデックス(Artificial Analysis Intelligence Index)において、知能性とタスクあたりのコストのトレードオフを最適化したパレト・フロンティア**上に位置するトップクラスのオープンウェイトモデルとなりました。

主要な評価結果とベンチマーク成績

GLM-5.2 は GLM-5.1 と同規模ながら、知能性で大きく向上しています。

  • 総合スコアの躍進

    • 人工分析知能インデックス v4.1 で総スコア 51を獲得し、トップクラスのオープンウェイトモデルです。
    • GLM-5.1(11 ポイント差)を大きく上回り、他社トップモデルであるMiniMax-M3(44)DeepSeek V4 Pro(最大値 44)、Kimi K2.6(43)を凌駕しました。
  • 科学推論・専門知識分野での顕著な改善

    • 多くの評価項目で向上が見られ、特に科学推論分野の進歩が目覚ましいです。GLM-5.1 と比較した具体的な成績向上は以下の通りです。
      • CritPt(科学推論): +16 ポイント(21% の向上)
      • HLE: +12 ポイント(40% の向上)
      • AA-LCR: +9 ポイント(71% の向上)
      • tau3 Banking: +15 ポイント(27% の向上)
      • SciCode: +7 ポイント(50% の向上)
    • 追加ベンチマークでの成果も高く、**TerminalBench v2.1 で +16 ポイント(78% の改善)**を記録。また、**GPQA Diamond は 3 ポイント上昇して 89%**の高精度を発揮しました。
  • エージェント性能における実戦力(GDPval-AA v2)

    • 人間と対等に戦うエージェントの性能を測る指標で、すべてのオープンウェイトモデルを破りました。
      • スコア 1,524を獲得し、MiniMax-M3(1,418)や DeepSeek V4 Pro(最大値 1,328)を上回りました。
      • この成果は、**GPT-5.5(xhigh reasoning、スコア 1,514)**を含む闭源モデルとも同等水準であることを示しています。
    • GDPval-AA v2 は、人間基準の Elo を 1000 に設定し、審査員をローテーションさせることでバイアスを排除。ターン上限を 250 まで引き上げるなど、長期タスクに対応するように設計されています。
  • AA-Omniscience インデックスでの改善

    • スコアを4に伸ばし、GLM-5.1(2)から大幅な向上を果たしました。
    • 精度の微細な調整と幻覚率の低下が成果の要因です(試行率は横ばい)。

パフォーマンスの詳細分析

トークン効率性に関する留意点

本モデルは高い知能性を実現するため、アウトプットトークンの消費量が多くなっています。

  • タスクあたりのアウトプットトークン: 43,000 トークンを使用します(その内訳で推論用 37,000 トークン)。
  • 比較対象との差: GLM-5.1(26,000)、MiniMax-M3(24,000)、Kimi K2.6(35,000)、DeepSeek V4 Pro(最大値 37,000)と比較しても最も多いです。
  • 結論: 知能性レベルに対してトークン効率はやや低く、コスト面ではパレト・フロンティア上の他のモデルとは位置が異なります。

コスト効率の比較

入力/出力単価は同等ですが、タスクあたりの総コストは高いです。

モデルタスクあたりのコスト(ドル)備考
DeepSeek V4 Pro0.05最も安価
MiniMax-M30.18
Kimi K2.60.31
GLM-5.10.25旧世代モデル
GLM-5.2約 0.46高知能性を実現した代償として高コスト

重要: GLM-5.2 は「知能性に対するコスト」のバランス(パレトフロンティア)において、そのスコアレベルで最も少ないコストを実現しています。

モデル詳細仕様

  • ライセンス: MIT
  • パラメータ数:
    • 総パラメータ数:7440 億
    • 有効パラメータ数:400 億(GLM-5.1 と同等)
  • コンテキストウィンドウ: 100 万トークン(GLM-5.1 の 20 万から拡大)
  • 入手方法:
    • ファーストパーティ API(公式)
    • サードパーティプロバイダー: DeepInfra、Novita、Nebius、Parasail、Siliconflow、GMI Cloud、Baseten、Fireworks など

アプローチと価格設定

  • 価格構成(100 万トークンあたり):
    • インプット:1.4 ドル
    • キャッシュヒット(入力キャッシュ):0.26 ドル
    • アウトプット:4.4 ドル
  • 戦略: GLM-5.1 と同等の価格設定を維持しつつ、知能性を大幅に向上させています。

詳細ベンチマークデータの確認

人工分析知能インデックス v4.1 に含まれるすべての評価項目の詳細な結果 breakdown は、以下のリンクでご確認ください。

GLM-5.2 詳細比較レポートへ

同じ日のほかのニュース

一覧に戻る →

2026/06/17 23:30

Lore:拡張性を備えたオープンソースのバージョン管理システムのためのストーリー

## Japanese Translation: Epic Games は、大規模なバイナリ資産と従来のコードを扱うゲーム開発者およびデジタルアーティストにとっての主要なスケーラビリティ課題を解決するために設計された新しいプラットフォーム「Lore」を発表しました。標準的なツールとは異なり、Lore は複合データタイプを含む複雑なワークフローに最適化されており、創意工夫のチームが抱える困難なプロジェクト特有のボトルネックに直接取り組んでいます。堅牢な開発ユーティリティで知られる主要な業界リーダーによって維持されるこのソリューションは、大規模なエンターテインメント制作を管理する組織にとって前例のない成長の可能性をもたらします。Lore の高容量アーキテクチャを実装することで、企業は現在のデータ管理の制限に縛られずに効率的性を大幅に向上させることができます。この転換により、プロのアーティストや開発者は業務を効果的にスケーリングすることができ、以前はストレージまたは処理の制約によって妨げられていた野心的なビジョンを実現できるより大きな協業チームを育成することができます。業界がより複雑なプロジェクトへと進化していく中で、Lore はプロジェクトの複雑性が劇的に増大してもクリエイティブなワークフローが流体性を保つことを保証する重要な前進を示しています。

2026/06/18 6:49

ストーリード・カラーズ——命名された色のカタログ

## Japanese Translation: 要旨は、カラーインデックスという出版物が、2026 年に立ち上げられ、特定の色の起源、化学組成、および資金出所を追跡するユニークな非商業的な刊行物であるということにある。広告収入に頼る通常の業界雑誌とは異なり、このニッチな索引は専門的な焦点を維持するために広告収益を一切排除し、学術的な分野や収集家を対象としている。本文では、6 月 15 日から 21 日までの入稿を扱った最新の号について記述されており、各 distinta な色調の詳細な歴史的および科学的注釈と資金源が添えられている。「最近の acquisitions」セクションには、この期間に含まれる全 252 件のうち 6 件が紹介されている。また、不定期のカラムである「書簡」では、新たな発見や争点となっている帰属問題を扱っている。関心のある購読者には、初号発送時に通知を受け取るための特定のオプションが用意されている。この最初の配信以降、出版物は将来の日時または主要な developments の概要を述べておらず、外部の宣伝的影響に頼ることなく、厳格なデータのみを対象とした継続的なリリーススケジュールを表明している。この構成により、ユーザーは真剣な研究や収集の目的に不可欠な純粋で検証済みの色彩情報を入手できるようになる。

2026/06/18 6:31

リークされた財務文書により、OpenAI が年間に数億ドルを失っていることが判明した

## Japanese Translation: ## まとめ: OpenAI は、金融時報(The Financial Times)とジャーナリストのエド・ジトロンが検証した漏洩された監査済み財務諸表の公開後、上場初回公開(IPO)へと進展しています。これらの文書は驚くべき成長を明らかにしています:収益は 2024 年の 37 億ドルから 2025 年の 130.7 億ドルに大幅に増加しました。これは主に積極的なスケーリングによるものであり、研究開発費は 78 億ドルから 191 億ドルへ急増しました(その内訳にはマイクロソフトへのモデル学習費用として 106 億超が計上されています)。この成長にもかかわらず、営業損失は 87.8 億ドルから 209.2 億ドルへと大幅に拡大しましたが、同社は損益対収益比率の改善により効率性が向上したと指摘しており、その比率は 237% から 160% に低下しました。研究、販売、マーケティングにおけるコストの上昇に伴い、OpenAI は 2030 年までに利益化を目指すことを約束しており、これは資本集約的な成長を経てから収益化するビジネスモデルを表明しています。