
2026/06/23 6:21
Unsloth GLM-5.2 — ローカルで実行する方法
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Z.ai の GLM-5.2 は、40B(アクティブ)のパラメータを備えた 7440 億パラメータを持つ大規模オープンソースモデルであり、コーディング、推論、エージェントタスクにおいて GPT-5.5 や Claude 4.8 Opus などの主要なクローズドモデルと同等の最先端性能を発揮します。大きな進歩の一つは、Unsloth の Dynamic quantization を用いて標準ハードウェアでローカル実行可能な点であり、例えば推奨されている 2 ビットバージョン(UD-IQ2_M)では、必要な容量が 1.51TB からわずか 239GB に削減されつつ約 82% の上位 1% の精度を維持し、高メモリワークステーションや 256GB ユニファイドメモリの Mac、GPU オフロードを利用するシステムなどで動作します。また、「Non」「High」「Max」の 3 つの思考モードを Unsloth Studio インターフェースまたはコマンドラインからアクセスでき、必要に応じて推論深度を切り替え可能です。MacOS、Windows、Linux のすべてで動作し、Unsloth Studio や llama.cpp を通じて高速な推論を実行できます。さらに、KV キャッシュの quantization による最多 3.5 倍までのコンテキスト長延伸や、クラウド API に依存せず迅速なローカル展開を可能とする柔軟なインストールスクリプトなどの追加最適化も提供されます。
本文
GLM-5.2: 最新オープンウェイトモデルのローカル実行ガイド
Z.ai から新登場した GLM-5.2 モデルをオンプレミス環境で動作させましょう!長期的なコーディング、推論、エージェントタスクにおいて SOTA(State-of-the-Art)の性能を発揮します。
🚀 GLM-5.2 の概要と特徴
- モデル仕様
- パラメータ数: 合計 744B(アクティブ部 40B)。
- コンテキストウィンドウ: 最大 1M トークン。
- 実行方式:
を使用。Unsloth Dynamic GGUF
- 性能
- 現在最も強力なオープンウェイトモデルクラスの一つです。
- 人工知能分析や多数のベンチマークにおいて、以下のモデルと同等のパフォーマンスを発揮します:
- Claude 4.8 Opus
- GPT-5.5
- Gemini 3.1 Pro
💾 ストレージ要件
| バージョン | ディスク容量 | 備考 |
|---|---|---|
| フルモデル | 1.51TB | ベースライン |
| Unsloth Dynamic 2-bit GGUF | 239GB (-84%) | 重要なレイヤーを 8 bit または 16 bit にアップキャスト(推奨) |
| Unsloth Dynamic 1-bit GGUF | 217GB (-86%) | サイズは小規模ですが、若干精度が低下します |
注釈: Z.ai に Unsloth への day-zero アクセスを提供いただきありがとうございます。 推奨事項: アクセシビリティと精度の観点から最も優れた結果を得るためには、239GB の UD-IQ2_M クエンティリゼーションを使用することを推奨します。
🧠 推論用ハードウェア要件
- メモリ計算方法: 単位は総メモリ量(RAM + VRAM またはユニファイドメモリ)です。
- 重要ポイント: 最適なパフォーマンスを得るためには、クエンティライズされたモデルファイルサイズよりも十分に余裕のある総可用メモリの確保が不可欠です。
🤔 GLM-5.2 の思考モード
GLM-5.2 は以下の 3 つの思考モードをサポートします:
- 非思考モード
- 思考モード (High)
- 思考モード (Max)
- 複雑なタスク: 必ず Max Thinking モードを使用してください。
- 切り替え方法: Unsloth Studio の UI を介して High、Max、および非思考モードを簡単に切り替えることができます。
推奨設定(デフォルト)
- 最大コンテキストウィンドウ:
トークン。1,048,576 - 推論 esforço (努力度):
,"high"
, または無効化。"max"- 思考機能の無効化方法:
--chat-template-kwargs '{"enable_thinking":false}'- Windows PowerShell の例:
--chat-template-kwargs "{\"enable_thinking\":false}" - または
でllama.cpp
/--reasoning on
を利用可能。--reasoning off
- Windows PowerShell の例:
- 思考機能の無効化方法:
📊 クエンティリゼーション分析結果 (KLD ベンチマーク)
- 精度: Dynamic 1-bit はサイズが約 86% 減少したにも関わらず、約 76.2% の精度を発揮します。Dynamic 2-bit はサイズが約 84% 減少したにもかかわらず、約 82% の精度を維持します。
- ロスレスオプション: Dynamic 4-bit (
) および Dynamic 5-bit (UD-Q4_K_XL
) は、一般的にロスレスです。UD-Q5_K_XL - KLD 閾値: KLD が 99.9% 程度であれば概して良好です。
- 大規模な分布外(Out-of-Distribution)タスクにおいては、4 bit 以降で大きな向上が見られるため、
が最も適している可能性があります。Dynamic 4-bit
- 大規模な分布外(Out-of-Distribution)タスクにおいては、4 bit 以降で大きな向上が見られるため、
🦥 Unsloth Studio で GLM-5.2 を実行する
GLM-5.2 は、オンプレミス AI 用のオープンソース Web UI である Unsloth Studio でも動作可能です。
主な機能
- 自動的な RAM オフロードおよびマルチ GPU セットアップの検出。
- GGUF および safetensor モデルの検索、ダウンロード、実行。
を活用した高速な CPU および GPU 推論。llama.cpp- 互換性: MacOS, Windows, Linux。
1. Unsloth のインストールと起動
ターミナルで以下のコマンドを実行してインストールしてください。
MacOS、Linux、WSL:
curl -fsSL https://unsloth.ai/install.sh | sh
Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
Unsloth の起動(全プラットフォーム共通):
unsloth studio -H 0.0.0.0 -p 8888
その後、ブラウザで
http://127.0.0.1:8888 を開いてください。
2. Cloudflare を介した安全な HTTPS 起動 (NEW!)
Unsloth は、無料で Cloudflare トンネルを利用して Studio を HTTPS 経由で安全に起動するための機能を提供しています。詳細は Cloudflare Tunnel セットアップガイドに従ってください。
3. GLM-5.2 の検索とダウンロード
- Unsloth Studio を起動します(初回起動時はパスワード設定が必要)。
- Studio Chat タブに移動します。
- 検索バーで
と入力し、目的のモデルとクエンティリゼーションを選択してダウンロードします。GLM-5.2 - モデルを実行するのに十分な計算能力があることを確認してください。
4. GLM-5.2 の実行
- 推論パラメータは自動的に設定されますが、手動で変更可能です。
- コンテキスト長やチャットテンプレート、その他の設定も編集できます。
- 詳細: Unsloth Studio 推論ガイド をご参照ください。
出力例: ツールコールと SVG 生成を伴う Dynamic 2-bit GLM-5.2 の動作様子です。
🦙 llama.cpp で GLM-5.2 を実行する
本ガイドでは、少なくとも 245GB の RAM が必要となる UD-IQ2_M クエンティリゼーション を使用して実行します。
前提条件
- GitHub から最新の llama.cpp を入手してください。
- ビルド指示に従ってください(GPU を使用しない場合は、
を-DGGML_CUDA=ON
に変更)。-DGGML_CUDA=OFF - Apple Mac / Metal デバイス用には:
を設定(Metal はデフォルトで有効)。-DGGML_CUDA=OFF
使用方法
これで
llama.cpp を直接使用してモデルを読み込みダウンロードできるようになりました。ollama run と同様に動作します。
手順
- クエンティリゼーションの選択: クエンティリゼーションタイプを選択してください(例:
)。UD-IQ2_M - キャッシュ場所の強制的設定:
を使用して、llama.cpp が特定の場所に保存するよう強制します。export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"
手動ダウンロード(高速)※推奨
コード経由でのダウンロードは時間がかかる場合があります。大規模ファイルの場合は以下のコマンドを実行してください。
# インストール pip install huggingface_hub # Dynamic 2-bit (ほぼ完全精度) のダウンロード hf download unsloth/GLM-5.2-GGUF \ --local-dir unsloth/GLM-5.2-GGUF \ --include "*UD-IQ2_M*" # または、1-bit 版の場合: hf download unsloth/GLM-5.2-GGUF \ --local-dir unsloth/GLM-5.2-GGUF \ --include "*UD-IQ1_S*"
モデルの実行
以下のコマンド例を
llama-cli で使用します:
./llama.cpp/llama-cli \ --model unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \ --temp 1.0 \ --top-p 0.95 \ --min-p 0.01
デモ結果(フラッピーバードゲーム)
- プロンプト: 「短めのフラッピーバードゲームを作成してください。」
- 出力: モデルは、サウンド、グラフィック、物理演算を備えた完全な HTML/JS ゲームを生成します!
- 生成されたゲームはサウンドを含み、驚くほど動作良好です(1-bit クエンティリゼーションでも)。
📐 KV キャッシュクエンティリゼーションによる長大コンテキストの利用
llama.cpp で長大コンテキストを利用するためには、メモリ使用量を削減するために KV キャッシュクエンティリゼーション を採用する必要があります。最近、
llama.cpp はこの機能を精度向上のために追加しました。
サポートされる KV キャッシュデータ型
デフォルトでは
f16 が使用されます。コンテキスト長を拡張するには、以下のように変更します:
- q4_0: 重さあたりの約 4.5 bit。コンテキスト長を約 3.5 倍に延長可能(例:10K から 35K)。
- q4_1: シフトパラメータにより精度が向上し、重さあたりの 5 bit(約 3.2 倍の長大コンテキスト)。
使用方法の例
./llama.cpp/llama-cli \ --model unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \ --temp 1.0 \ --top-p 0.95 \ --min-p 0.01 \ --cache-type-k q4_1 \ --cache-type-v q4_1
📐 ターミナルコードとゲームの実行(一括設定)
依存関係のインストールを自動化し、環境をセットアップするスクリプトです。
インストールとビルド
# 環境の自動設定 curl -fsSL https://unsloth.ai/install.sh | sh # Windows PowerShell の場合: irm https://unsloth.ai/install.ps1 | iex # llama.cpp の依存関係のインストール (Linux/CentOS など) apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y # ビルドとコンパイル git clone https://github.com/ggml-org/llama.cpp cd llama.cpp && \ cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON \ -DCMAKE_BUILD_TYPE=Release # ビルド実行 cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split # 出力ファイルの整理 cp llama.cpp/build/bin/llama-* llama.cpp
キャッシュ設定と実行
export LLAMA_CACHE="unsloth/GLM-5.2-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/GLM-5.2-GGUF:UD-IQ2_M \ --temp 1.0 \ --top-p 0.95 \ --min-p 0.01
生成されたゲーム出力(HTML/CSS/JS)の特徴
このモデルは、"Sunset Flier"のようなゲーム向けに、埋め込まれた CSS、JS ロジック、そして Canvas レンダリングを備えた完全な HTML ファイルを生成できます。
- 機能:
- リスポンシブデザイン
- Web Audio API サウンドエフェクト
- パーティクルシステム
を通じたハイスコア追跡localStorage- 磨き込まれた UI オーバーレイ
- 視覚効果:
- グラデーション空、アニメーションされた雲、日の眩み
- 手続き的に生成された山シルエット
- 物理演算:
- 滑らかな重力
- 翼ばたつきメカニズム
- 衝突判定、死亡アニメーション
(完全な HTML コード断片は簡略化のため省略されていますが、機能としては独立した単一ファイルゲームとして動作します)