
2026/04/06 2:13
LM Studio の新しいヘッドレスCLIとClaude Codeで、Gemma 4をローカル環境で実行する方法
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
要約
この記事は、MacBook Pro 上で Google の Gemma 4 26B‑A4B Mixture‑of‑Experts モデルをローカルに実行し、クラウド料金やプライバシーの懸念なしに高速かつ高品質な推論を達成する方法を示しています。前方パスごとに約 40 億個のパラメータしかアクティブにならないため、モデルは Apple Silicon の統一メモリ 48 GB に快適に収まり、最初のトークン遅延が約 1.5 秒で ≈51 トークン/秒を提供します。ベンチマークでは MMLU が 82.6 %、AIME が 88.3 % を報告し、約 10 B の密な LLM と同等の性能を持ちつつ、4 B モデルの推論コストで済みます。
ガイドは、Anthropic の API に互換性のある REST エンドポイントを公開する LM Studio の新しいヘッドレス CLI(
lms)をローカルサーバーとして設定し、Claude Code などのツールが claude-lm エイリアス経由で完全にオフラインのコーディング支援へリダイレクトできるようにする方法を説明しています。インストール手順、Gemma 4 のダウンロード、望むコンテキスト長(例:128K トークン)でモデルを読み込む方法、および TTL、GPU オフロード、並列スロットなどのオプション調整がカバーされています。
追加情報:
- モデルはビジョン入力とツール呼び出しをサポートし、最大コンテキストウィンドウは 256K トークンです。
- Gemma 4 のような MoE モデルでは専門家帯域幅オーバーヘッドのために推測デコーディングは効果がなく、無効化すべきです。
- 推論時には利用可能な 48 GB メモリの約 46.7 GB を使用し、約 27.5 GB のスワップを消費しますが、それでも応答性を保ち、安全な温度制限(CPU 約 91 °C、GPU 約 92 °C)内に収まります。
総じて、この手法は日常的なノートパソコン上で強力な LLM 推論を実現できることを示し、クラウドサービスの代替としてコスト効率が高く低レイテンシーでプライバシーとワークフロー連続性を維持する開発者向けの選択肢を提供します。
本文
Google Gemma 4 26B‑A4B + LM Studioでローカル推論を行う
1️⃣ なぜローカルモデルを実行するのか?
| 要素 | クラウドAPI | ローカルモデル |
|---|---|---|
| コスト | トークンごとに課金(使用料) | API料金ゼロ |
| プライバシー | データがマシンを離れる | すべてのデータはローカルに留まる |
| レイテンシ | ネットワーク往復時間 | 即時、ネットワーク遅延なし |
| 可用性 | プロバイダーの稼働状況に依存 | 常に利用可能 |
Gemma 4 の Mixture‑of‑Experts(MoE)設計はラップトップ向けに最適で、1トークンあたり約 4 B のパラメータのみがアクティブになります。
2️⃣ 主なスペック
- モデル:
google/gemma-4-26b-a4b - 構成: gemma4 (MoE) – 128 experts + 1 shared expert、8 experts が同時に活性化 → 約 10 B の密結合等価品質。
- パラメータ数: 合計 26 B、前方伝搬ごとにアクティブなものは約 4 B。
- コンテキストウィンドウ: 最大 256 K トークン(デフォルトは 48 K)。
- M4 Pro (48 GB 統合メモリ) 上の速度: 約 51 tokens/秒、最初のトークンで 1.5 秒のレイテンシ。
- Vision & tool‑calling サポート – 画像解析や自動ワークフローに最適。
3️⃣ LM Studio CLI のワークフロー
# インストール curl -fsSL https://lmstudio.ai/install.sh | bash # Linux/Mac irm https://lmstudio.ai/install.ps1 | iex # Windows # ヘッドレスデーモンを起動 lms daemon up # ランタイムの更新(任意) lms runtime update llama.cpp lms runtime update mlx # モデルのダウンロード (Q4_K_M 量子化、17.99 GB) lms get google/gemma-4-26b-a4b # ダウンロード/読み込みコマンドを確認 lms ls
メモリ使用量の事前推定
lms load google/gemma-4-26b-a4b --estimate-only --context-length 48000 # → 推定 GPU/総メモリ: 約21 GiB
希望するコンテキストでロード
lms load google/gemma-4-26b-a4b --context-length 128000
ローカルの OpenAI 互換サーバーを起動
lms server start # デフォルトポートは 1234 # 別のポートを指定したい場合 lms server start --port 8080
4️⃣ Claude Code をローカルで実行する
~/.zshrc(または使用しているシェルの初期化ファイル)に次を追加します。
claude-lm() { export ANTHROPIC_BASE_URL="http://localhost:1234" export ANTHROPIC_AUTH_TOKEN="lmstudio" # デフォルトでは認証不要 export ANTHROPIC_MODEL="gemma-4-26b-a4b" # すべての Claude Code モデル名をローカル Gemma 4 に強制設定 export ANTHROPIC_DEFAULT_OPUS_MODEL="google/gemma-4-26b-a4b" export ANTHROPIC_DEFAULT_SONNET_MODEL="google/gemma-4-26b-a4b" export ANTHROPIC_DEFAULT_HAIKU_MODEL="google/gemma-4-26b-a4b" # サブエージェントモデル export CLAUDE_CODE_SUBAGENT_MODEL="google/gemma-4-26b-a4b" # コンテキストウィンドウの圧縮(48 K の制限を回避) export CLAUDE_CODE_AUTO_COMPACT_WINDOW="48000" export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE="90" # 長時間実行時のタイムアウト export API_TIMEOUT_MS="30000000" # 約 8.3 時間 export BASH_DEFAULT_TIMEOUT_MS="2400000" export BASH_MAX_TIMEOUT_MS="2500000" # 応答ごとのトークン上限(生成を高速化) export CLAUDE_CODE_MAX_OUTPUT_TOKENS="8000" export CLAUDE_CODE_FILE_READ_MAX_OUTPUT_TOKENS="8000" # ローカルモデルでサポートされない機能を無効化 export CLAUDE_CODE_DISABLE_1M_CONTEXT="1" export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING="1" claude "$@" }
シェルを再読み込みし、セッションを開始します。
source ~/.zshrc claude-lm
これで Claude Code のすべてのリクエストがローカル Gemma 4 モデルに対して実行されます。
5️⃣ 実践的なヒント
| トピック | 推奨設定 |
|---|---|
| コンテキスト長 | を RAM に合わせて調整。48 GB の Mac なら 128 K は安全、256 K は約 37 GiB の総メモリを消費します。 |
| 並列リクエスト | デフォルトは 2 スロット( による制御)。他の重いアプリを走らせている場合は減らしてください。 |
| TTL | モデルを自動でアンロードする ( は 30 分)。無効化したい場合は を設定。 |
| スペキュレーティブデコーディング | MoE モデルではスキップ推奨。パフォーマンスが低下します。 |
| Flash Attention | LM Studio の設定で有効にすると、KV キャッシュのメモリを削減できます(長いコンテキスト時)。 |
| 監視 | でリアルタイムのトークンレートとレイテンシを確認。 |
6️⃣ 要点まとめ
- Gemma 4 26B‑A4B は MoE の品質が約 10 B の密結合に相当し、1 通過あたりわずか ~4 B がアクティブです。
- 48 GB Apple Silicon ラップトップでは約 51 tokens/秒で動作し、最初のトークンは 1.5 秒です。
- LM Studio のヘッドレス CLI (
) により、ダウンロード・メモリ推定・ロード・サーバ起動が簡単に行えます。lms
を設定すれば Claude Code を完全オフラインで実行でき、コスト削減とプライバシー保護が可能です。claude-lm
ローカル LLM のハッキングをお楽しみください!