Unsloth GLM-5.2 — ローカルで実行する方法

2026/06/23 6:21

Unsloth GLM-5.2 — ローカルで実行する方法

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Z.ai の GLM-5.2 は、40B(アクティブ)のパラメータを備えた 7440 億パラメータを持つ大規模オープンソースモデルであり、コーディング、推論、エージェントタスクにおいて GPT-5.5 や Claude 4.8 Opus などの主要なクローズドモデルと同等の最先端性能を発揮します。大きな進歩の一つは、Unsloth の Dynamic quantization を用いて標準ハードウェアでローカル実行可能な点であり、例えば推奨されている 2 ビットバージョン(UD-IQ2_M)では、必要な容量が 1.51TB からわずか 239GB に削減されつつ約 82% の上位 1% の精度を維持し、高メモリワークステーションや 256GB ユニファイドメモリの Mac、GPU オフロードを利用するシステムなどで動作します。また、「Non」「High」「Max」の 3 つの思考モードを Unsloth Studio インターフェースまたはコマンドラインからアクセスでき、必要に応じて推論深度を切り替え可能です。MacOS、Windows、Linux のすべてで動作し、Unsloth Studio や llama.cpp を通じて高速な推論を実行できます。さらに、KV キャッシュの quantization による最多 3.5 倍までのコンテキスト長延伸や、クラウド API に依存せず迅速なローカル展開を可能とする柔軟なインストールスクリプトなどの追加最適化も提供されます。

本文

GLM-5.2: 最新オープンウェイトモデルのローカル実行ガイド

Z.ai から新登場した GLM-5.2 モデルをオンプレミス環境で動作させましょう!長期的なコーディング、推論、エージェントタスクにおいて SOTA(State-of-the-Art)の性能を発揮します。

🚀 GLM-5.2 の概要と特徴

  • モデル仕様
    • パラメータ数: 合計 744B(アクティブ部 40B)。
    • コンテキストウィンドウ: 最大 1M トークン
    • 実行方式:
      Unsloth Dynamic GGUF
      を使用。
  • 性能
    • 現在最も強力なオープンウェイトモデルクラスの一つです。
    • 人工知能分析や多数のベンチマークにおいて、以下のモデルと同等のパフォーマンスを発揮します:
      • Claude 4.8 Opus
      • GPT-5.5
      • Gemini 3.1 Pro

💾 ストレージ要件

バージョンディスク容量備考
フルモデル1.51TBベースライン
Unsloth Dynamic 2-bit GGUF239GB (-84%)重要なレイヤーを 8 bit または 16 bit にアップキャスト(推奨)
Unsloth Dynamic 1-bit GGUF217GB (-86%)サイズは小規模ですが、若干精度が低下します

注釈: Z.ai に Unsloth への day-zero アクセスを提供いただきありがとうございます。 推奨事項: アクセシビリティと精度の観点から最も優れた結果を得るためには、239GB の UD-IQ2_M クエンティリゼーションを使用することを推奨します。

🧠 推論用ハードウェア要件

  • メモリ計算方法: 単位は総メモリ量(RAM + VRAM またはユニファイドメモリ)です。
  • 重要ポイント: 最適なパフォーマンスを得るためには、クエンティライズされたモデルファイルサイズよりも十分に余裕のある総可用メモリの確保が不可欠です。

🤔 GLM-5.2 の思考モード

GLM-5.2 は以下の 3 つの思考モードをサポートします:

  1. 非思考モード
  2. 思考モード (High)
  3. 思考モード (Max)
  • 複雑なタスク: 必ず Max Thinking モードを使用してください。
  • 切り替え方法: Unsloth Studio の UI を介して High、Max、および非思考モードを簡単に切り替えることができます。

推奨設定(デフォルト)

  • 最大コンテキストウィンドウ:
    1,048,576
    トークン。
  • 推論 esforço (努力度):
    "high"
    ,
    "max"
    , または無効化。
    • 思考機能の無効化方法:
      --chat-template-kwargs '{"enable_thinking":false}'
      
      • Windows PowerShell の例:
        --chat-template-kwargs "{\"enable_thinking\":false}"
        
      • または
        llama.cpp
        --reasoning on
        /
        --reasoning off
        を利用可能。

📊 クエンティリゼーション分析結果 (KLD ベンチマーク)

  • 精度: Dynamic 1-bit はサイズが約 86% 減少したにも関わらず、約 76.2% の精度を発揮します。Dynamic 2-bit はサイズが約 84% 減少したにもかかわらず、約 82% の精度を維持します。
  • ロスレスオプション: Dynamic 4-bit (
    UD-Q4_K_XL
    ) および Dynamic 5-bit (
    UD-Q5_K_XL
    ) は、一般的にロスレスです。
  • KLD 閾値: KLD が 99.9% 程度であれば概して良好です。
    • 大規模な分布外(Out-of-Distribution)タスクにおいては、4 bit 以降で大きな向上が見られるため、
      Dynamic 4-bit
      が最も適している可能性があります。

🦥 Unsloth Studio で GLM-5.2 を実行する

GLM-5.2 は、オンプレミス AI 用のオープンソース Web UI である Unsloth Studio でも動作可能です。

主な機能

  • 自動的な RAM オフロードおよびマルチ GPU セットアップの検出。
  • GGUF および safetensor モデルの検索、ダウンロード、実行。
  • llama.cpp
    を活用した高速な CPU および GPU 推論。
  • 互換性: MacOS, Windows, Linux。

1. Unsloth のインストールと起動

ターミナルで以下のコマンドを実行してインストールしてください。

MacOS、Linux、WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex

Unsloth の起動(全プラットフォーム共通):

unsloth studio -H 0.0.0.0 -p 8888

その後、ブラウザで

http://127.0.0.1:8888
を開いてください。

2. Cloudflare を介した安全な HTTPS 起動 (NEW!)

Unsloth は、無料で Cloudflare トンネルを利用して Studio を HTTPS 経由で安全に起動するための機能を提供しています。詳細は Cloudflare Tunnel セットアップガイドに従ってください。

3. GLM-5.2 の検索とダウンロード

  1. Unsloth Studio を起動します(初回起動時はパスワード設定が必要)。
  2. Studio Chat タブに移動します。
  3. 検索バーで
    GLM-5.2
    と入力し、目的のモデルとクエンティリゼーションを選択してダウンロードします。
  4. モデルを実行するのに十分な計算能力があることを確認してください。

4. GLM-5.2 の実行

  • 推論パラメータは自動的に設定されますが、手動で変更可能です。
  • コンテキスト長やチャットテンプレート、その他の設定も編集できます。
  • 詳細: Unsloth Studio 推論ガイド をご参照ください。

出力例: ツールコールと SVG 生成を伴う Dynamic 2-bit GLM-5.2 の動作様子です。


🦙 llama.cpp で GLM-5.2 を実行する

本ガイドでは、少なくとも 245GB の RAM が必要となる UD-IQ2_M クエンティリゼーション を使用して実行します。

前提条件

  • GitHub から最新の llama.cpp を入手してください。
  • ビルド指示に従ってください(GPU を使用しない場合は、
    -DGGML_CUDA=ON
    -DGGML_CUDA=OFF
    に変更)。
  • Apple Mac / Metal デバイス用には:
    -DGGML_CUDA=OFF
    を設定(Metal はデフォルトで有効)。

使用方法

これで

llama.cpp
を直接使用してモデルを読み込みダウンロードできるようになりました。
ollama run
と同様に動作します。

手順

  1. クエンティリゼーションの選択: クエンティリゼーションタイプを選択してください(例:
    UD-IQ2_M
    )。
  2. キャッシュ場所の強制的設定:
    export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"
    を使用して、llama.cpp が特定の場所に保存するよう強制します。

手動ダウンロード(高速)※推奨

コード経由でのダウンロードは時間がかかる場合があります。大規模ファイルの場合は以下のコマンドを実行してください。

# インストール
pip install huggingface_hub

# Dynamic 2-bit (ほぼ完全精度) のダウンロード
hf download unsloth/GLM-5.2-GGUF \
    --local-dir unsloth/GLM-5.2-GGUF \
    --include "*UD-IQ2_M*" 

# または、1-bit 版の場合:
hf download unsloth/GLM-5.2-GGUF \
    --local-dir unsloth/GLM-5.2-GGUF \
    --include "*UD-IQ1_S*"

モデルの実行

以下のコマンド例を

llama-cli
で使用します:

./llama.cpp/llama-cli \
    --model unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01

デモ結果(フラッピーバードゲーム)

  • プロンプト: 「短めのフラッピーバードゲームを作成してください。」
  • 出力: モデルは、サウンド、グラフィック、物理演算を備えた完全な HTML/JS ゲームを生成します!
    • 生成されたゲームはサウンドを含み、驚くほど動作良好です(1-bit クエンティリゼーションでも)。

📐 KV キャッシュクエンティリゼーションによる長大コンテキストの利用

llama.cpp で長大コンテキストを利用するためには、メモリ使用量を削減するために KV キャッシュクエンティリゼーション を採用する必要があります。最近、

llama.cpp
はこの機能を精度向上のために追加しました。

サポートされる KV キャッシュデータ型

デフォルトでは

f16
が使用されます。コンテキスト長を拡張するには、以下のように変更します:

  • q4_0: 重さあたりの約 4.5 bit。コンテキスト長を約 3.5 倍に延長可能(例:10K から 35K)。
  • q4_1: シフトパラメータにより精度が向上し、重さあたりの 5 bit(約 3.2 倍の長大コンテキスト)。

使用方法の例

./llama.cpp/llama-cli \
    --model unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --cache-type-k q4_1 \
    --cache-type-v q4_1

📐 ターミナルコードとゲームの実行(一括設定)

依存関係のインストールを自動化し、環境をセットアップするスクリプトです。

インストールとビルド

# 環境の自動設定
curl -fsSL https://unsloth.ai/install.sh | sh
# Windows PowerShell の場合:
irm https://unsloth.ai/install.ps1 | iex

# llama.cpp の依存関係のインストール (Linux/CentOS など)
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

# ビルドとコンパイル
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp && \
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON \
    -DCMAKE_BUILD_TYPE=Release

# ビルド実行
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split

# 出力ファイルの整理
cp llama.cpp/build/bin/llama-* llama.cpp

キャッシュ設定と実行

export LLAMA_CACHE="unsloth/GLM-5.2-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.2-GGUF:UD-IQ2_M \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01

生成されたゲーム出力(HTML/CSS/JS)の特徴

このモデルは、"Sunset Flier"のようなゲーム向けに、埋め込まれた CSS、JS ロジック、そして Canvas レンダリングを備えた完全な HTML ファイルを生成できます。

  • 機能:
    • リスポンシブデザイン
    • Web Audio API サウンドエフェクト
    • パーティクルシステム
    • localStorage
      を通じたハイスコア追跡
    • 磨き込まれた UI オーバーレイ
  • 視覚効果:
    • グラデーション空、アニメーションされた雲、日の眩み
    • 手続き的に生成された山シルエット
  • 物理演算:
    • 滑らかな重力
    • 翼ばたつきメカニズム
    • 衝突判定、死亡アニメーション

(完全な HTML コード断片は簡略化のため省略されていますが、機能としては独立した単一ファイルゲームとして動作します)

同じ日のほかのニュース

一覧に戻る →

2026/06/23 2:09

Steam マシンが本日発売開始

## Japanese Translation: このフッターセクションは、Valve Corporation からの法的通知であり、コンテンツに対する留保された権利を主張するとともに、商標が世界中でそれぞれの所有者に帰属することを示しています。これは厳格な知的財産権の境界線を定め、プライバシーポリシー、アクセシビリティ基準、Steam サブスクライバー契約、返金手続き、クッキー情報を含む重要なポリシーへのアクセスを案内します。これらの契約的および法的枠組みを確立することで、本テキストはユーザーが自身のデータ権利、返金の有無、利用条件について理解できるよう通知し、企業資産と国際的・地域的な合意に基づく消費者保護に関する明確さを確保しています。

2026/06/23 5:48

LG スマート TVs の約半分が住宅用プロキシ SDK を内蔵しています

## Japanese Translation: LG webOS および Samsung Tizen TV 向けに導入されている 6,038 アプリについて調査したところ、そのうち 2,058 を超えるアプリが SDK(ソフトウェア開発キット)を介して静かにユーザーの IP アドレスを販売し、レジデンシャルプロキシとして機能することが明らかとなりました。従来の広告ベースの収益化モデルとは異なり、これらのアプリはスクリーンセーバーや水槽などの distractions なユーティリティ内に偽装された SDK を通じて、インターネット接続を静かに収益化しています。Amazon は明確に此类サービスを禁止しているほか、Roku も接触後に同様の SDK をブロックしたと報じられていますが、LG および Samsung では同様の公的ポリシーが存在せず、このビジネスモデルが検出されずに拡大することを許容する規制上の空白を生み出しています。特定企業のうち、Bright Data(367 件のフラグ付けされたアプリに関連)および Honeygain UAB(16 件のアプリの発行元)が含まれています。単なるデータ共有を超えた深刻なセキュリティリスクが存在します。一部の SDK はプライベート IP の範囲に対する適切なブロックリストを欠いており、その結果 TV が攻撃者のローカルデバイス(ルーターやカメラなど)へのアクセス手段となる可能性があります。これは Kimwolf ボットネットの事例で実証されています。提供者は同意フロー、KYC、監査などがリスクを軽減すると主張していますが、ユーザーがこれらの統制を検証するのは困難です。このため、研究者たちは、LG および Samsung に顕著な開示とユーザークントロールを要件とする明確なポリシーの確立を促しており、これによってこの目に見えない経済活動が検出されずに続かないよう求めています。

2026/06/23 4:19

Optocam Zero:市販品を用いた Pi Zero ベースのデジタルカメラ

## Japanese Translation: Optocam Zero は、一般的に入手可能な部品を使用し、Raspberry Pi Zero を基盤として構築された遊び心がありながらコンパクトなデジタルカメラです。Kodak Charmera に着想を得ており、アクセシビリティを最優先するよう設計されています。ケースは完全に 3D プリンターで製作可能であり、BOM(材料明細書)や CAD ファイルといった明確な製造リソースも提供されています。51x71x18mm という極めて小さいフットプリントながら、240x240px の LCD スクリーン、オートフォーカスモジュール、そして 2592x2592px の JPEG 画像をキャプチャできる 1.4 インチディスプレイといった実用的な機能を搭載しています。充電可能な Li イオンバッテリーで動作し、互換性のあるバッテリーの取り付けや USB-C での充電に対応しており、70〜80 分間の使用が可能で、スムーズなパフォーマンスを実現します。起動時間は 22 秒、プレビュー再生速度は 15〜20 fps です。GIF 録画・再生機能や写真フィルターといった高度なツールも備わっています。独自のカスタムホットスポットインターフェースにより、画像をモバイルデバイスおよびデスクトップデバイスへの転送を簡素化しており、専門的なスキルなしで写真撮影を探求するための直感的な入門点となっています。