
2026/02/01 21:43
**Claude Code** クォータが尽きたらローカルモデルに接続します。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
より安価な Anthropic Claude プランを利用しているユーザーは、コーディング中に日次または週次のクォータ制限に直面することが多いです。この記事では、Claude Code を Anthropic の API ではなくローカルのオープンソースモデルに接続することでこれらの制約を回避する方法について説明しています。実際的な2つの手法を紹介します:
- LM Studio v0.4.1 を使用する方法 ― モデルは検索インターフェイス経由でインストール(推奨コンテキストサイズ > 25k トークン)、
でサーバーを起動し、環境変数lms server start --port 1234
とexport ANTHROPIC_BASE_URL=http://localhost:1234
を設定します。次に Claude Code をexport ANTHROPIC_AUTH_TOKEN=lmstudioc
で起動し、Claude 内でclaude --model openai/gpt‑oss‑20b
コマンドを使ってモデルの確認または切替えを行います。/model - Llama.CPP を直接使用する方法 ― これにより Claude Code はローカルエンドポイントを指すことも可能です。
推奨されるモデルとしては、Z.AI の GLM‑4.7‑Flash と Qwen3‑Coder‑Next が挙げられています。また、小型で量子化されたバージョンを使用するとディスク容量と GPU メモリを節約できますが、その代償として品質や速度が若干低下する可能性があります。ローカル OSS モデルは遅く、コード生成の質が低下することもありますが、クォータ制限やコストが問題になる際に有効なバックアップ手段となります。最後に、読者にはこの設定を試し、さまざまなモデルをテストして経験を共有するよう奨励しています。
本文
Skip to content
もし、私のように Anthropic のプランが安価なものを利用している場合、Claude でコードを書き進めているときに「日次または週次のクォータ制限」に達することがよくあります。継続したい場合は、Anthropic に代わりローカルのオープンソースモデルを利用すると良いでしょう。現在のクォータ状況を確認するには
/usage を入力します。
/usage – 余っているクォータと消費速度を表示します。
最適なオープンソースモデルは頻繁に変わりますが、この記事を書いた時点では GLM‑4.7‑Flash(Z.AI) または Qwen3‑Coder‑Next を推奨しています。ディスク容量や GPU メモリを節約したい場合は、ロードと実行が速くなる小型の量子化版を試してみてください。タスクと機械制約に合わせた最適なオープンソースモデルの見つけ方については、別途詳細記事で解説します。
方法 1:LM Studio
LM Studio でオープンソースモデルへアクセスする
LM Studio は、ローカルマシン上でオープンソース LLM やビジョンモデルを見つけて実行できる使いやすいツールです。バージョン 0.4.1 では Claude Code(CC)への接続機能が追加されました。詳細は https://lmstudio.ai/blog/claudecode をご覧ください。
LM Studio のインストールと起動
-
モデル検索ボタンをクリックしてモデルをインストールします(上図参照)。
LM Studio は 25K 以上のコンテキストでモデルを実行することを推奨しています。 -
新しいターミナルセッションを開き、以下を実行します。
- サーバー起動:
lms server start --port 1234 - 環境変数を設定して CC が LM Studio に接続できるようにする:
export ANTHROPIC_BASE_URL=http://localhost:1234 export ANTHROPIC_AUTH_TOKEN=lmstudioc - CC をサーバーに接続:
claude --model openai/gpt-oss-20b
- サーバー起動:
Tip – スピードと性能に対する期待を控えめに保ちましょう!
使用中のモデル確認
/model と入力して現在使用しているモデルを確認、または切り替えます。
方法 2:Llama.cpp に直接接続
LM Studio はオープンソースプロジェクト llama.cpp をベースにしています。LM Studio を使わずにプロジェクトを直接インストール・実行し、Claude Code と接続することも可能です。ただし、モデルのファインチューニングや特定の要件がない限り、LM Studio の方がセットアップは迅速です。
結論
現時点では、これはあくまでバックアップソリューションです。マシンに余裕がない場合は速度低下とコード品質の減少を感じるかもしれませんが、動作します!クォータがリセットされるたびにローカル OSS モデルと Claude を切り替えることで、制限に直面した際や単純にクォータを節約したい場合にもコーディングを継続できます。試してみたらどのモデルが最適か教えてください。