
2025/12/23 3:46
**GLM‑4.7:コーディング機能の進化**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
(combining missing details, removing unfounded inferences, keeping clarity):**
Summary
GLM‑4.7 は GLM‑4.6 に対し、複数の面で大幅な性能向上を示しています:
- コーディングベンチマーク: SWE‑bench (+5.8 % で 73.8 %)、SWE‑bench Multilingual (+12.9 % で 66.7 %)、Terminal Bench 2.0 (+16.5 % で 41 %)。
- ツール使用 & ウェブ閲覧: τ²‑Bench と BrowseComp において顕著な向上を示し、モデルのツール実行とウェブサイトナビゲーション能力が改善されています。
- 複雑推論: HLE ベンチマークで +12.4 %(42.8 %)に達し、チャット・創作執筆・ロールプレイシナリオでの性能も向上しています。
リリースには、新しい 思考モード — Interleaved Thinking, Preserved Thinking, Turn‑level Thinking — が含まれ、ツール使用と複雑なエージェント操作を強化します。GLM‑4.7 は 17 の評価テスト(例:MMLU‑Pro, GPQA‑Diamond, AIME 2025, IMOAnswerBench, LiveCodeBench‑v6)で競合他社より優れた性能を示しています。
Availability
- API アクセス: Z.ai、OpenRouter などのパートナー経由で利用可能。ユーザーは「glm‑4.7」を選択するか、API リクエストで直接呼び出すことができます。
- ローカルデプロイメント: 重みは HuggingFace と ModelScope に公開されており、vLLM および SGLang 推論用の公式ドキュメントがあります。
- 価格とアップグレード: GLM Coding Plan の購読者は自動でアップグレードされます。新規ユーザーは Claude レベルの性能を約 1/7 の価格で、使用量上限が 3 倍になるメリットがあります。
Ecosystem impact
リリースはすでに人気のコーディングエージェント(Claude Code, Kilo Code, Cline, Roo Code)へ統合されており、Vibe Coding の UI 改善と同時期です。手頃な価格で高性能なコーディング支援とオープンウェイトを提供することで、GLM‑4.7 はソフトウェア開発ワークフロー全体のコスト低減と生産性向上が期待されています。
Key points retained: All major quantitative gains, new thinking modes, benchmark superiority, availability channels, pricing structure, local inference support, and ecosystem integrations are explicitly mentioned. Unnecessary inferences have been removed, and vague phrasing (e.g., “clear performance boost”) has been replaced with concrete data.
本文
GLM‑4.7 – 新しいコーディングパートナー
コア機能
- 多言語対応のエージェント型コーディングとターミナルタスク
- SWE‑bench: 73.8 % (+5.8)
- SWE‑bench Multilingual: 66.7 % (+12.9)
- Terminal Bench 2.0: 41 % (+16.5)
- 「思考してから行動」 – Claude Code、Kilo Code、Cline、Roo Code の複雑タスクで顕著な成績向上。
- Vibe Coding – クリーンでモダンなウェブページとレイアウト・サイズが正確に再現された洗練されたスライドを生成。
- ツール使用 – τ²‑Bench と BrowseComp のウェブブラウジングタスクで優れた性能。
- 複雑推論 – HLE(Humanity’s Last Exam)で 42.8 % (+12.4) を達成。
ベンチマーク実績
| Benchmark | GLM‑4.7 | GLM‑4.6 | Kimi K2 Thinking | DeepSeek‑V3.2 | Gemini 3.0 Pro | Claude Sonnet 4.5 | GPT‑5 High | GPT‑5.1 High |
|---|---|---|---|---|---|---|---|---|
| Reasoning | ||||||||
| MMLU‑Pro | 84.38 | 83.28 | 84.68 | 85.09 | 88.18 | 87.58 | 87.58 | 87.0 |
| GPQA‑Diamond | 85.78 | 81.08 | 84.58 | 82.49 | 91.98 | 93.48 | 88.78 | 88.1 |
| HLE | 24.81 | 17.22 | 23.92 | 55.13 | 57.51 | 53.72 | 65.32 | 57.7 |
| HLE (w/ Tools) | 42.83 | 0.44 | 44.94 | 85.84 | 82.03 | 52.24 | 2.7 | |
| AIME 2025 | 95.79 | 3.99 | 35.93 | 59.19 | 87.09 | 74.09 | 94.69 | 0 |
| HMMT Feb 2025 | 97.18 | 9.28 | 49.92 | 57.57 | 79.28 | 39.6 | 3.3 | |
| HMMT Nov 2025 | 93.58 | 7.78 | 90.29 | 02.29 | 33.81 | 89.2 | – | |
| Agents | ||||||||
| IMOAnswerBench | 82.07 | 3.57 | 8.68 | 83.38 | 35.86 | 78.0 | ||
| LiveCodeBench‑v6 | 84.98 | 2.88 | 31.18 | 90.76 | 40.74 | 87.0 | ||
| Code Agent – SWE‑bench Verified | 73.86 | 8.07 | 3.47 | 61.77 | 27.74 | 96.7 | ||
| SWE‑bench Multilingual | 66.75 | 3.86 | 1.17 | 0.2 | –68.05 | 55.3 | ||
| Terminal Bench Hard | 33.32 | 3.63 | 0.635 | 39.43 | 30.33 | 543.0 | ||
| Terminal Bench 2.0 | 41.02 | 4.53 | 5.74 | 6.45 | 42.24 | 835.7 | ||
| Agent Browsing | ||||||||
| BrowseComp | 52.04 | 5.1 | –51.4 | –24.15 | 49.50 | 0.8 | ||
| BrowseComp (w/ Context Manage) | 67.55 | 7.56 | 0.267 | 65.9 | 2 | |||
| BrowseComp‑ZH | 66.64 | 9.56 | 23.65 | 0–42.46 | 3.0 | |||
| τ²‑Bench | 87.47 | 5.27 | 4.38 | 5.39 | 0.78 | 72.82 | 2.482.7 |
備考: ベンチマークは小数点以下二桁で四捨五入しています。
その他のハイライト
- コーディングエージェント互換性 – Claude Code、Kilo Code、Roo Code、Cline などで利用可能。
- 価格 – GLM‑4.7 は Claude 系モデルの約1/7 の料金で、使用上限が3倍に拡張されています。
- ローカルデプロイ – HuggingFace と ModelScope から重みをダウンロードでき、vLLM や SGLang をサポート。
思考モード
| モード | 説明 |
|---|---|
| Interleaved Thinking | 各応答/ツール呼び出し前に思考する。 |
| Preserved Thinking | 複数ターンのコーディング会話で推論を保持。 |
| Turn‑level Thinking | ターンごとに思考を有効/無効化してレイテンシと精度を調整。 |
詳細: https://docs.z.ai/guides/capabilities/thinking-mode
API アクセス
- Z.ai – モデルオプションを
に変更。glm-4.7
ドキュメント: https://docs.z.ai/guides/llm/glm-4.7 - OpenRouter – 世界中で利用可能: https://openrouter.ai/
デプロイと設定
| タスク | 推奨設定 |
|---|---|
| デフォルト | temp 1.0, top‑p 0.95, max tokens 131072 |
| マルチターン (τ²‑Bench / Terminal Bench 2) | Preserved Thinking を有効化 |
| Terminal Bench / SWE‑bench Verified | temp 0.7, top‑p 1.0, max tokens 16384 |
| τ²‑Bench | temp 0, max tokens 16384 |
ショーケースプロンプト
- フロントエンド開発 – ダークモード、太字見出し、アニメーション付きティッカー、チャンクリーチップ、磁力型CTAを備えた HTML サイトを構築。
- ボクセルアート環境 – 1つの自己完結型 HTML ファイルで桜が咲く鮮やかな庭園を作成。
- ポスターデザイン – パリ風ポスター:エレガント、ロマンチック、ファッション志向の美学。
- スライド作成 – GLM‑4.7 の Interleaved & Preserved Thinking を起点に開始。
すべてのベンチマークと機能は、GLM‑4.7 の現在の状態を反映しています。