LM Studio の新しいヘッドレスCLIとClaude Codeで、Gemma 4をローカル環境で実行する方法

2026/04/06 2:13

LM Studio の新しいヘッドレスCLIとClaude Codeで、Gemma 4をローカル環境で実行する方法

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

要約

この記事は、MacBook Pro 上で Google の Gemma 4 26B‑A4B Mixture‑of‑Experts モデルをローカルに実行し、クラウド料金やプライバシーの懸念なしに高速かつ高品質な推論を達成する方法を示しています。前方パスごとに約 40 億個のパラメータしかアクティブにならないため、モデルは Apple Silicon の統一メモリ 48 GB に快適に収まり、最初のトークン遅延が約 1.5 秒で ≈51 トークン/秒を提供します。ベンチマークでは MMLU が 82.6 %、AIME が 88.3 % を報告し、約 10 B の密な LLM と同等の性能を持ちつつ、4 B モデルの推論コストで済みます。

ガイドは、Anthropic の API に互換性のある REST エンドポイントを公開する LM Studio の新しいヘッドレス CLI(

lms
)をローカルサーバーとして設定し、Claude Code などのツールが
claude-lm
エイリアス経由で完全にオフラインのコーディング支援へリダイレクトできるようにする方法を説明しています。インストール手順、Gemma 4 のダウンロード、望むコンテキスト長(例:128K トークン)でモデルを読み込む方法、および TTL、GPU オフロード、並列スロットなどのオプション調整がカバーされています。

追加情報:

  • モデルはビジョン入力とツール呼び出しをサポートし、最大コンテキストウィンドウは 256K トークンです。
  • Gemma 4 のような MoE モデルでは専門家帯域幅オーバーヘッドのために推測デコーディングは効果がなく、無効化すべきです。
  • 推論時には利用可能な 48 GB メモリの約 46.7 GB を使用し、約 27.5 GB のスワップを消費しますが、それでも応答性を保ち、安全な温度制限(CPU 約 91 °C、GPU 約 92 °C)内に収まります。

総じて、この手法は日常的なノートパソコン上で強力な LLM 推論を実現できることを示し、クラウドサービスの代替としてコスト効率が高く低レイテンシーでプライバシーとワークフロー連続性を維持する開発者向けの選択肢を提供します。

本文

Google Gemma 4 26B‑A4B + LM Studioでローカル推論を行う


1️⃣ なぜローカルモデルを実行するのか?

要素クラウドAPIローカルモデル
コストトークンごとに課金(使用料)API料金ゼロ
プライバシーデータがマシンを離れるすべてのデータはローカルに留まる
レイテンシネットワーク往復時間即時、ネットワーク遅延なし
可用性プロバイダーの稼働状況に依存常に利用可能

Gemma 4 の Mixture‑of‑Experts(MoE)設計はラップトップ向けに最適で、1トークンあたり約 4 B のパラメータのみがアクティブになります。


2️⃣ 主なスペック

  • モデル:
    google/gemma-4-26b-a4b
  • 構成: gemma4 (MoE) – 128 experts + 1 shared expert、8 experts が同時に活性化 → 約 10 B の密結合等価品質。
  • パラメータ数: 合計 26 B、前方伝搬ごとにアクティブなものは約 4 B。
  • コンテキストウィンドウ: 最大 256 K トークン(デフォルトは 48 K)。
  • M4 Pro (48 GB 統合メモリ) 上の速度: 約 51 tokens/秒、最初のトークンで 1.5 秒のレイテンシ。
  • Vision & tool‑calling サポート – 画像解析や自動ワークフローに最適。

3️⃣ LM Studio CLI のワークフロー

# インストール
curl -fsSL https://lmstudio.ai/install.sh | bash   # Linux/Mac
irm https://lmstudio.ai/install.ps1 | iex          # Windows

# ヘッドレスデーモンを起動
lms daemon up

# ランタイムの更新(任意)
lms runtime update llama.cpp
lms runtime update mlx

# モデルのダウンロード (Q4_K_M 量子化、17.99 GB)
lms get google/gemma-4-26b-a4b

# ダウンロード/読み込みコマンドを確認
lms ls

メモリ使用量の事前推定

lms load google/gemma-4-26b-a4b --estimate-only --context-length 48000
# → 推定 GPU/総メモリ: 約21 GiB

希望するコンテキストでロード

lms load google/gemma-4-26b-a4b --context-length 128000

ローカルの OpenAI 互換サーバーを起動

lms server start          # デフォルトポートは 1234
# 別のポートを指定したい場合
lms server start --port 8080

4️⃣ Claude Code をローカルで実行する

~/.zshrc
(または使用しているシェルの初期化ファイル)に次を追加します。

claude-lm() {
    export ANTHROPIC_BASE_URL="http://localhost:1234"
    export ANTHROPIC_AUTH_TOKEN="lmstudio"      # デフォルトでは認証不要
    export ANTHROPIC_MODEL="gemma-4-26b-a4b"

    # すべての Claude Code モデル名をローカル Gemma 4 に強制設定
    export ANTHROPIC_DEFAULT_OPUS_MODEL="google/gemma-4-26b-a4b"
    export ANTHROPIC_DEFAULT_SONNET_MODEL="google/gemma-4-26b-a4b"
    export ANTHROPIC_DEFAULT_HAIKU_MODEL="google/gemma-4-26b-a4b"

    # サブエージェントモデル
    export CLAUDE_CODE_SUBAGENT_MODEL="google/gemma-4-26b-a4b"

    # コンテキストウィンドウの圧縮(48 K の制限を回避)
    export CLAUDE_CODE_AUTO_COMPACT_WINDOW="48000"
    export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE="90"

    # 長時間実行時のタイムアウト
    export API_TIMEOUT_MS="30000000"   # 約 8.3 時間
    export BASH_DEFAULT_TIMEOUT_MS="2400000"
    export BASH_MAX_TIMEOUT_MS="2500000"

    # 応答ごとのトークン上限(生成を高速化)
    export CLAUDE_CODE_MAX_OUTPUT_TOKENS="8000"
    export CLAUDE_CODE_FILE_READ_MAX_OUTPUT_TOKENS="8000"

    # ローカルモデルでサポートされない機能を無効化
    export CLAUDE_CODE_DISABLE_1M_CONTEXT="1"
    export CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING="1"

    claude "$@"
}

シェルを再読み込みし、セッションを開始します。

source ~/.zshrc
claude-lm

これで Claude Code のすべてのリクエストがローカル Gemma 4 モデルに対して実行されます。


5️⃣ 実践的なヒント

トピック推奨設定
コンテキスト長
--context-length
を RAM に合わせて調整。48 GB の Mac なら 128 K は安全、256 K は約 37 GiB の総メモリを消費します。
並列リクエストデフォルトは 2 スロット(
/v1/chat
による制御)。他の重いアプリを走らせている場合は減らしてください。
TTLモデルを自動でアンロードする (
--ttl 1800
は 30 分)。無効化したい場合は
0
を設定。
スペキュレーティブデコーディングMoE モデルではスキップ推奨。パフォーマンスが低下します。
Flash AttentionLM Studio の設定で有効にすると、KV キャッシュのメモリを削減できます(長いコンテキスト時)。
監視
lms log stream --source model --stats
でリアルタイムのトークンレートとレイテンシを確認。

6️⃣ 要点まとめ

  • Gemma 4 26B‑A4B は MoE の品質が約 10 B の密結合に相当し、1 通過あたりわずか ~4 B がアクティブです。
  • 48 GB Apple Silicon ラップトップでは約 51 tokens/秒で動作し、最初のトークンは 1.5 秒です。
  • LM Studio のヘッドレス CLI (
    lms
    ) により、ダウンロード・メモリ推定・ロード・サーバ起動が簡単に行えます。
  • claude-lm
    を設定すれば Claude Code を完全オフラインで実行でき、コスト削減とプライバシー保護が可能です。

ローカル LLM のハッキングをお楽しみください!

同じ日のほかのニュース

一覧に戻る →

2026/04/06 3:45

Gemma 4(iPhone向け)

## Japanese Translation: AI Edge GalleryはiPhone専用アプリで、デバイスのハードウェア上で大規模言語モデルを完全にオフラインで実行し、インターネット接続なしで高性能な生成型AIをユーザーに提供します。最新リリースではGemma 4をサポートし、以下の新機能が追加されました: - **Agent Skills** ユーザーはWikipedia事実照合、インタラクティブマップ、視覚要約カードなどのモジュールツールでLLMを拡張でき、URLまたはGitHub Discussionsからスキルをロードできます。 - **AI Chat with Thinking Mode** 対応モデルに対してステップバイステップの推論ビューを提供し、多段会話の透明性を高めます。 - **Ask Image** デバイスカメラまたはフォトギャラリーを使用したマルチモーダルオブジェクト認識と視覚パズル解決が可能です。 - **Audio Scribe** 音声録音をリアルタイムで文字起こし・翻訳し、オンデバイス言語モデルを利用します。 - **Prompt Lab** 温度やtop‑kなどのパラメータ調整が可能なプロンプトテスト用ワークスペースです。 - **Mobile Actions** ファインチューニングされたFunctionGemma 270mモデルにより、オフラインデバイス制御と自動タスクを実現します。 - **Tiny Garden** 自然言語で仮想庭園を植えたり収穫したりできる実験的ミニゲームで、同じくFunctionGemma 270mベースです。 アプリにはカスタムオープンソースモデルのダウンロード・ロードと特定ハードウェア上での性能評価が可能な柔軟なサンドボックスがあります。全ての推論はデバイス内で行われるため、インターネットは不要であり、プロンプト、画像、および機密データの100 %オンデバイスプライバシーを確保します。プロジェクトはオープンソース(GitHub: https://github.com/google-ai-edge/gallery)で、スキルや機能のコミュニティ貢献を歓迎しています。 この要約はすべての主要ポイントを網羅し、推測的表現を避けつつ主旨を明確かつ簡潔に提示しています。

2026/04/04 18:20

**LÖVE:Lua用 2D ゲームフレームワーク**

## Japanese Translation: > **概要:** > LÖVEは、Windows、macOS、Linux、Android、およびiOS上でLuaを使用して2Dゲームを構築するための無料かつオープンソースのフレームワークです。プロジェクトはGitHubに安定リリースを公開し、CI経由でnightly/unstableビルド(Ubuntu PPA `ppa:bartbes/love-unstable` および Arch AUR パッケージ `love-git` を含む)も提供しています。すべてのバイナリは、LÖVE APIを網羅する完全なテストスイート(`testing/`)とともに配布されます。各プラットフォーム用の詳細なビルド手順が用意されており、LinuxではCMake、macOS/iOSではXcode、Androidには専用リポジトリがあります。また `love‑experiments` リポジトリは実験的変更を保持しています。ドキュメントはプロジェクトのWikiにあり、コミュニティサポートはフォーラム、Discord、subreddit、およびWikiから提供されます。貢献はプルリクエストで受け付けられますが、LLMや生成AIによって生成されたコードは品質維持のため拒否されます。主な依存関係にはSDL3、OpenGL 3.3+ / OpenGL ES 3.0+、Vulkan/Metal、OpenAL、Lua/LuaJIT/LLVM‑lua、FreeType、harfbuzz、ModPlug、Vorbisfile、およびTheoraが含まれます。

2026/04/06 7:31

日本では、ロボットはあなたの仕事を奪うものではなく、誰も取りたがらない職務を担ってくれます。

## Japanese Translation: --- ## 要約 日本経済産業省は、総理大臣高市早苗氏の支援を受けて、2040年までに世界市場の **30 %** を占める国内物理‑AIセクター構築計画を発表し、約 **63億ドル** の資金を投入します。このイニシアチブは深刻な労働力不足が主因であり、日本の就業年齢人口は **59.6 %** に減少しており、今後20年間で約 **1500万人** へと縮小すると予測され、将来の労働供給に脅威を与えています。 日本の製造業者はすでに **70 %(2022年)** の産業用ロボット市場を支配しており、強固な基盤があります。政府の戦略は実験的試作から、**稼働時間、人間介入率、生産性への影響** で測定される有料顧客導入へとシフトします。 このハイブリッドエコシステムを示す主要プレーヤーは次の通りです: - **Mujin**:既存の産業用ロボットを自律的なピッキング・物流プラットフォームに変えるロボティクス制御ソフトウェア。 - **WHILL**:東京とサンフランシスコで創業されたスタートアップ。電動車両、搭載センサー、ナビゲーションシステム、クラウドベースのフリート管理を組み合わせた短距離自律輸送。 - **SoftBank**:視覚と言語モデルとリアルタイム制御を結合し、環境を認識して複雑なタスクを自律的に実行できるロボットを産業現場で可能にする。 - **Terra Drone**:運用データ+AI を活用し、自律防衛システムの信頼性向上を図る。 日本の優位性は、高精度部品(アクチュエーター、センサー、モーションコントロール)にあり、物理システムと AI の統合に対して戦略的な堀を形成しています。投資は純粋なハードウェアではなく、オーケストレーションソフトウェア、デジタルツイン、シミュレーションツール、統合プラットフォームへと徐々に向けられています。 結果として生まれるハイブリッドモデルは、大手企業がスケールと信頼性を提供し、スタートアップがソフトウェア革新を推進する構造であり、製造業・物流・自律輸送・防衛部門を再形成する可能性があります。これにより、ハードウェアの卓越性と高度な AI オーケストレーションを融合したバランスの取れたエコシステムが実現します。