Japanese Translation:

ユーザーは、データプライバシーを確保するために強力な Mac で Qwen3.6 などの大規模ローカル言語モデルを実行する傾向が増えています。これらは複雑な計画には frontier API モデルを使用し、コスト効果の高い実装にはローカルモデルを使用するというハイブリッドなアプローチを取り入れることが多いです。この資本支出方式は、専門的な技術設定（例：量化（Q4_K_XL または Q8）、プロンプトキャッシング最適化（

preserve_thinking=true

データプライバシーと LLM によるオフラインコーディング：Qwen3.6 とローカル運用の実践

イントロダクション

L（Large Language Model）は無料で利用可能であり、データプライバシーを完全に保持できる点で非常に魅力的です。以下の構成では、Pi のコーディングフレームワークとコンテナ化された環境を用い、Mac Studio (128GB RAM) や MacBook Pro (36GB RAM) 上で完全オフラインでの動作を実現しています。

実装環境とモデル構成

ハードウェア:
- Mac Studio (128GB RAM) または MacBook Pro (36GB RAM)
- Strix Halo チップセット搭載のノート PC（ユニファイドメモリー）
採用モデル:
- Qwen3.6 35B: 有効パラメータ数を30 億（3B）に制限し、Mac で動作させています。
- Qwen3.5 122B: 有効パラメータ数 100 億を使用しますが、著しく低速となるため注意が必要です。
- Gemma 4 31B: チャット・翻訳などの一般的なタスクに使用。
- Gemma 4 12B: 音声処理に使用。

モデル特性の比較：Claude Opus vs ローカル Qwen

大規模モデル（Claude Opus）との比較から得られた知見です。

精度:
- モデルは能動的な思考をほとんど行いません。
- 指示を正確に伝えることが極めて重要であり、未定義の仮定が残っていると「最も簡単な経路（例：HTML 内に CSS を記述する）」を選んでしまうため、アーキテクチャ上最適になりません。
ループおよびツール呼び出し:
- ループ構造に陥る頻度が高く、編集ツールの呼び出しを誤ることが多いです。
- エラー後に呼び出しを再試行せず、多くのトークンを消費してファイルを再読してしまう傾向があります。
能力の差:
- Claude Opus: アーキテクチャに関する思考をユーザーと共に遂行する「シニア・アーキテクト」に相当します（高速性：比較基準）。
- Qwen3.6 (エージェント型): 知識は豊富だが指導が必要な「ジュニア開発者」に相当します。
- 速度の差: Opus が 15 倍の高速化をもたらす場合、ローカル Qwen は5 倍の高速化を提供します（これは無料である点での驚異的な価値です）。

課題解決と設定方法

アジェンダ・制限の設定

AGENTS.md の利用:
- ```
AGENTS.md
```
  を更新し、編集動作と書き換え動作を制限することで、ループ問題を改善できます。
プロンプトキャッシングの制御:
- 旧モデルではターン間の思考状態が保持されず、全コンテキストを再処理していました。
- Qwen3.6 では
```
preserve_thinking
```
  がサポートされているため、キャッシュの有効活用により再処理を回避可能です。

# models.ini の設定例
chat-template-kwargs = {"preserve_thinking": true}

ハードウェア構成への推奨事項

NVIDIA RTX カード:
- RTX 3090×2（約$4,400）は、Claude サブスクリプション分を5〜6 ヶ月間賄うことができます。
- デュアル GPU では SLI は不完全なため、モデル全体を両カードに分散させる方式が必要です。
Apple Silicon (ユニファイドメモリー):
- Mac Studio / MacBook Pro は M4 Max/M5 搭載で予算を抑えつつ高機能を実現できます（M4 Max Mini: 約$2,000）。
- ただし、メモリ帯域幅がボトルネックとなり、高密度モデルでは速度が落ちる可能性があります。
AMD カード:
- Radeon Pro RX 7900 XTX や RDNA3 シリーズはコスパに優れています。
- AI ワークロードには**1 枚の 32GB VRAM カード（約$1,200〜$1,400）**を、2 枚の 16GB コマ-bin 組み合わせる方が有益なことが多いです。
量子化:
- ```
Q8
```
  や
```
Q4_K_XL
```
  を使用すると、高品質を保ちつつ無限ループを防ぐ効果があります。

運用ワークフローのヒント

ローカルモデルを効果的に活用するための戦略です。

計画と設計の分離:
- まず高度なモデル（Opus や DeepSeek V4 Pro）で詳細な計画・アーキテクチャを生成します。
- その後、ローカルモデルによって実装を行います。
原子タスクへの分解:
- 複雑な問題をTODO 単位に分解してください。
- ローカルモデルは急場しのぎの修正を行いがちなので、「設計知識を活性化させよう」と明確に指示する必要があります。
反復的な洗練:
- ローカルモデルには最先端モデルが持つ「幻覚的誤記に対する緩衝地帯」がないため、スコープ内にとどまるよう導く必要があります。

ハybrid モデル戦略の考察

DeepSeek V4/Flash: コストパフォーマンスに優れています（月額約 0.83 ドル vs サブスクリプション）。
ハイブリッド運用: プライバシー確保のためにローカル環境で Qwen を使用し、計画段階では DeepSeek API を利用するというアプローチも有効です。
性能の現状: ローカルモデルは Opus 4.x や Opus 3 より高性能ですが、Opus 4.8 に及ばない可能性があります。

結論

ローカルモデル（VRAM 128GB クラス）と最先端クラウドクラスタの間には依然として性能のギャップが存在しますが、多数のタスクにおいてClaude 4 Opus と同等とみなすことができます。

メリット: データプライバシー保護、オフライン動作能力、コスト削減。
パラダイムシフト: プログラマーにとっては**OpEx（サブスクリプション）から CapEx（ハードウェアへの投資）**への変化であり、データセキュリティや長期的な安定性に対する精神的安心感をもたらします。

重要: NVIDIA GPU に比べれば AMD は高単価ですが、ローカル運用においては llama.cpp の Vulkan バージョンが Qwen モデルにおいて ROCm よりも動作が良い傾向にあります。

HN 質問：日常のコーディングで Claude や GPT の代わりにローカルモデルを使っている人はいますか？