**Claude Code**  
クォータが尽きたらローカルモデルに接続します。

2026/02/01 21:43

**Claude Code** クォータが尽きたらローカルモデルに接続します。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
より安価な Anthropic Claude プランを利用しているユーザーは、コーディング中に日次または週次のクォータ制限に直面することが多いです。この記事では、Claude Code を Anthropic の API ではなくローカルのオープンソースモデルに接続することでこれらの制約を回避する方法について説明しています。実際的な2つの手法を紹介します:

  1. LM Studio v0.4.1 を使用する方法 ― モデルは検索インターフェイス経由でインストール(推奨コンテキストサイズ > 25k トークン)、
    lms server start --port 1234
    でサーバーを起動し、環境変数
    export ANTHROPIC_BASE_URL=http://localhost:1234
    export ANTHROPIC_AUTH_TOKEN=lmstudioc
    を設定します。次に Claude Code を
    claude --model openai/gpt‑oss‑20b
    で起動し、Claude 内で
    /model
    コマンドを使ってモデルの確認または切替えを行います。
  2. Llama.CPP を直接使用する方法 ― これにより Claude Code はローカルエンドポイントを指すことも可能です。

推奨されるモデルとしては、Z.AI の GLM‑4.7‑FlashQwen3‑Coder‑Next が挙げられています。また、小型で量子化されたバージョンを使用するとディスク容量と GPU メモリを節約できますが、その代償として品質や速度が若干低下する可能性があります。ローカル OSS モデルは遅く、コード生成の質が低下することもありますが、クォータ制限やコストが問題になる際に有効なバックアップ手段となります。最後に、読者にはこの設定を試し、さまざまなモデルをテストして経験を共有するよう奨励しています。

本文

Skip to content

もし、私のように Anthropic のプランが安価なものを利用している場合、Claude でコードを書き進めているときに「日次または週次のクォータ制限」に達することがよくあります。継続したい場合は、Anthropic に代わりローカルのオープンソースモデルを利用すると良いでしょう。現在のクォータ状況を確認するには

/usage
を入力します。

/usage – 余っているクォータと消費速度を表示します。

最適なオープンソースモデルは頻繁に変わりますが、この記事を書いた時点では GLM‑4.7‑Flash(Z.AI) または Qwen3‑Coder‑Next を推奨しています。ディスク容量や GPU メモリを節約したい場合は、ロードと実行が速くなる小型の量子化版を試してみてください。タスクと機械制約に合わせた最適なオープンソースモデルの見つけ方については、別途詳細記事で解説します。


方法 1:LM Studio

LM Studio でオープンソースモデルへアクセスする

LM Studio は、ローカルマシン上でオープンソース LLM やビジョンモデルを見つけて実行できる使いやすいツールです。バージョン 0.4.1 では Claude Code(CC)への接続機能が追加されました。詳細は https://lmstudio.ai/blog/claudecode をご覧ください。

LM Studio のインストールと起動

  1. モデル検索ボタンをクリックしてモデルをインストールします(上図参照)。
    LM Studio は 25K 以上のコンテキストでモデルを実行することを推奨しています。

  2. 新しいターミナルセッションを開き、以下を実行します。

    • サーバー起動:
      lms server start --port 1234
    • 環境変数を設定して CC が LM Studio に接続できるようにする:
      export ANTHROPIC_BASE_URL=http://localhost:1234
      export ANTHROPIC_AUTH_TOKEN=lmstudioc
      
    • CC をサーバーに接続:
      claude --model openai/gpt-oss-20b

Tip – スピードと性能に対する期待を控えめに保ちましょう!

使用中のモデル確認

/model
と入力して現在使用しているモデルを確認、または切り替えます。


方法 2:Llama.cpp に直接接続

LM Studio はオープンソースプロジェクト llama.cpp をベースにしています。LM Studio を使わずにプロジェクトを直接インストール・実行し、Claude Code と接続することも可能です。ただし、モデルのファインチューニングや特定の要件がない限り、LM Studio の方がセットアップは迅速です。


結論

現時点では、これはあくまでバックアップソリューションです。マシンに余裕がない場合は速度低下とコード品質の減少を感じるかもしれませんが、動作します!クォータがリセットされるたびにローカル OSS モデルと Claude を切り替えることで、制限に直面した際や単純にクォータを節約したい場合にもコーディングを継続できます。試してみたらどのモデルが最適か教えてください。

同じ日のほかのニュース

一覧に戻る →

2026/02/05 0:08

「Voxtral Transcribe 2」(ボクセトラル・トランスクライブ 2)

## Japanese Translation: Voxtral は次世代の音声認識モデルを 2 つリリースしました:**Mini Transcribe V2**(バッチ)と **Realtime**(ライブ)。RealtimはApache 2.0 ライセンスで Hugging Face 上で入手可能で、サブ 200 ms のレイテンシーを設定でき、480 ms まで下げられます。480 ms の遅延で字幕用に 2.4 秒のディレイがあり、WER(単語誤り率)が 1–2% 内に収まります。両モデルとも **13 言語**(英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語)をサポートします。 Mini Transcribe V2 は FLEURS ベンチマークで約 **4 % WER** を達成し、ElevenLabs の Scribe v2 より音声処理速度が約 3 倍速く、API 経由で **$0.003/min** のコストです。Realtime は同等の精度を **4‑B パラメータ** のフットプリントで実現し、エッジデプロイが可能です。また、そのストリーミングアーキテクチャは音声が到着した時点で文字起こしを行い、他の API で一般的なチャンクベースの処理を回避します。 企業向け機能には、スピーカー分離(開始/終了タイムスタンプ付き)、単語レベルのタイムスタンプ、最大 100 語・フレーズまでのコンテキストバイアシング(英語最適化)、ノイズ耐性、および **3 時間** までの録音サポートがあります。Mistral Studio のオーディオプレイグラウンドでは、両モデルを最大 10 ファイル(各ファイル ≤1 GB)でテストでき、スピーカー分離、タイムスタンプ粒度、およびコンテキストバイアシングのオプションがあります。 ユースケースは **会議インテリジェンス、音声エージェント/仮想助手、コールセンター自動化、メディア/放送字幕、コンプライアンスポータル** など多岐にわたり、すべて GDPR/HIPAA 対応のオンプレミスまたはプライベートクラウドデプロイでサポートされます。Voxtral は、GPT‑4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回る最高の価格対性能を誇る転写 API と主張しています。 同社は開発者にチームへの参加を呼びかけており、世界クラスの音声 AI の構築と継続的な製品拡大・将来機能リリースを示唆しています。

2026/02/05 3:34

インフラ向け Claude コード

## Japanese Translation: > Fluid は、AI エージェントが本番インフラストラクチャのサンドボックス化されたクローンを安全に探索し、その後、自動的に実際のサーバー用の Infrastructure‑as‑Code(IaC)―たとえば Ansible プレイブック ― を生成できる軽量ターミナルエージェントです。 > LLM 単体ではライブシステムの挙動を予測することが難しいため、サンドボックスは実際的なコンテキストを提供します。コマンドはホストと同一 OS、パッケージ、ツールを鏡映した隔離された VM またはクラスター上で実行されます。 > Fluid には安全性が組み込まれています:本番環境への直接 SSH は許可せず、一時的な証明書のみを使用し、すべてのサンドボックスコマンドは監査可能に完全ログ記録され、高リソースまたはインターネット依存の操作は人間の承認が必要です。 > インストールはワンライナー(`curl -fsSL https://fluid.sh/install.sh | bash`)で、ホスト環境を自動的に検出します。 > 提供された例では、AI エージェントがサンドボックス(ID `SBX-demo1234`、IP `192.168.122.50`)に Apache をインストールし、curl で確認した後、`httpd‑setup` プレイブックを生成します。このプレイブックは 4 件のタスク(apt キャッシュ更新、Apache インストール、カスタム `index.html` 作成、サービス起動/有効化)から構成され、任意の Ubuntu サーバーで実行して同じ設定を再現できます。 > コントロールされた監査可能なワークフローをチームに提供することで、Fluid はデプロイリスクを低減し、コンプライアンスを向上させ、AI 主導のインフラ変更を効率化します。

2026/02/05 6:08

「世界ファクトブックに光を当てつつ、さよならの言葉を添えて」

## Japanese Translation: CIAのWorld Factbookは公式に廃止(“サンセット”)されました。1962年に機密扱いだった*National Basic Intelligence Factbook*として始まり、1971年に一般公開され、1981年前後で*World Factbook*と改名されました。1997年にはCIA.gov上でデジタル化され、毎年数百万の訪問者がデータテーブルや地図、ジャーナリズム・研究・教育・旅行計画に使用するCIA職員が寄稿した著作権フリー写真を利用しました。サイトでは読者が好む地理的名称や世界の実体を追加申請できる機能もありました。新しい版や更新は今後予定されていないため、ユーザーは同等の国別統計と画像を得るために他の情報源へ移行する必要があります。この結果、商業データベースの利用が増加し、新たなオープンアクセス代替案の創出につながる可能性があります。 この改訂版ではすべての重要ポイントを保持し、将来への推測に関する根拠のない推論を除外しつつ、主要メッセージを明確かつ簡潔に保っています。

**Claude Code** クォータが尽きたらローカルモデルに接続します。 | そっか~ニュース