Japanese Translation:

本文は、ローカルコード生成のために Qwen 3.6 27B デンスモデルを優先すること advises（推奨）しています。これは、指示追従の精度と効率的なパフォーマンスのバランスが取れており、Node パッケージの作成といった特定のタスクで失敗する可能性があるように 35B の A3B mixture-of-experts などのより大きなバリエーションを上回る場合があるためです。ベンチマークによると、このモデルは消費者向けハードウェア上で効率的に動作しながら、2025 年の中盤の GPT-5 程度の知能レベルに達します。Apple M5 チップ（共有 RAM を最大 48 GB 使用）では約 30 トokens/秒、量子化された状態で高級な Nvidia RTX 5090 カードでは 50 トokens/秒にスケールします。重要なのは、著者が倫理的かつ技術的な理由から、Ollama ではなく

llama-server

llama-cli

unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0

Qwen 3.6：ローカル環境での「実用的な汎用 AI」への道筋

総評：なぜ Qwen 3.6 が特別なのか

これまでローカルモデルに失望した経験がありましたが、Qwen 3.6 を検証した際はその能力に圧倒されました。これこそが、私が求める「実際に意味を持つ最初のローカル汎用知能（AGI）」です。

同シリーズには以下の 2 つのバリエーションがあります：

Qwen 3.6-35B-A3B：専門家集団方式（Mixture-of-Experts）を採用したモデル
Qwen 3.6-27B：低速ながら高密度な強力なモデル

著者は、後者の Qwen 3.6-27B を強くお勧めします。

実機テスト結果

物理的な反応: 動作中の発熱が凄まじく、膝が溶けそうなほどでした（携帯用赤外線カメラで撮影）。
注目を集める: Hacker News で「Qwen 3.6-27B はその能力を凌駕するほど優秀」という声が挙がる中、著者は「評価に足る性能」だと確信しました。
コストパフォーマンス: 確かに消費電力（熱）はかかりますが、それを支払うだけの価値があります。

試行錯誤の始まり：Smoke Test

モデルの能力を素早く検証するためのテスト（Smoke Test）を行います。Simon Willison 氏は「自転車に乗るペンギン」を題材にしています。著者は通常、制約付きのクリエイティブな執筆を試みます。

テストケース 1：量子物理学と詩

指示内容: 量子物理学に関する解説と韻律の両面から合理的で、「Zouk ダンス」を詠む 8 行詩を作成させる。
結果: 思考プロセス（量子用語、韻律）が完全に正解。

テストケース 2：コーディングタスク（OpenCode）

指示内容: pnpm を使用して「六角形のマインスイーパークラー」を生成させる。
Qwen 3.6-27B の結果:
- 単一のプロンプトで即座に成功。
- 正しい Node パッケージが構築された。
Qwen 3.6-35B-A3B の結果:
- プロンプトを無視して「単一ファイルの index.html」を作成した（指示に従わなかった）。

結論: ローカル版でも、GPT-4.5 級の実装能力を持ちつつ、コストパフォーマンスは劇的に向上しています。

本格的な作業：日常タスクでの性能

日常的な業務においても Qwen 3.6-27B は十分な優秀さを発揮します。 AI エージェント（OpenCode など）を動かす際も、短くシンプルで反応のいいプロンプトが機能し、「オールインワン」の実現が可能です。

ローカル環境での実行方法：llama.cpp で始める

Ollama ではなく、llama.cpp を推奨します。

理由: デバイス横断で動作可能であり、論理的・倫理的観点からも推奨されるオープンソースツールです。
手順: Hugging Face から量子化（サイズ縮小）されたモデルを取得し、CLI コマンド 1 つで起動します。

モデルの選択

推奨モデル:
```
unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0
```
- 8 ビット量子化（容量半減、品質維持）。
- MTP（マルチトークン予測） サポートにより高速化。

サーバー起動コマンド

以下を

llama-server

で実行してください：

llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
    --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

コマンド解説

パラメータ	説明
`-hf unsloth/...`	Hugging Face からモデルを取得・キャッシュ（起動時以外でも再利用可）。
`-m ~/models/...`	ローカルにモデルがある場合はこのパスを使用。
`--spec-type draft-mtp`	高速化機能。複数のトークンを同時に予測し処理速度を向上。
`-ngl 999`	GPU メモリ活用。計算層をすべて GPU に配置（999 は全層の指示）。
`-fa on`	Flash Attention を有効化（メモリ効率と速度向上）。
`-c 65536`	コンテキストサイズを 64k トークンに設定（必要なら調整可。ネイティブは 256k）。
`--port 8080`	リッスンポートを明示指定（推奨）。

起動後、

http://127.0.0.1:8080

をブラウザで開くとチャットが可能です。

OpenCode 設定例

エージェントとして OpenCode を使う場合、以下の設定を追加します：

{
  "$schema": "https://opencode.ai/config.json",
  "provider": {
    "llama": {
      "name": "llama.cpp (local)",
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1",
        "apiKey": "local"
      },
      "models": {
        "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
      }
    }
  },
  "model": "llama/qwen3.6-27b"
}

クライアントからの実行（ターミナル派）

チャットのみで、CLI を使う場合は

llama-cli

を使用：

llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
          -ngl 999 -fa on -c 65536

パフォーマンス測定結果

MacBook Max M5 (128GB RAM) での検証結果です。

ベンチマーク比較（Tokens/Second）

DeepSeek-V4-Flash (Q2〜Q4 量子化): 約 30 トokens/sec。先進モデル API 程度の速度です。
- 注：mlx-lm は Apple Silicon 向けですが、llama.cpp の方がさらに高速でした。
GPU 利用率: 95% と非常に高い効率性。
Qwen 3.6-27B vs 35B-A3B:
- 35B-A3B は約 3 倍速いですが、Qwen 3.6-27B を推奨します。
- コード生成量は半分以下になりますが、品質は格段に向上するためです。

ハードウェア要件

Apple Silicon (MacBook): 共有メモリ 48 GB 以内で動作確認済み。
NVIDIA RTX コンシューマー: より積極的な量子化が必要ですが、推論速度自体はさらに高まります（例：RTX 5090 で Q6_K+Q4_0 の設定なら安定して 50 トokens/sec）。

State-of-the-Art モデルとの評価比較

人工知能分析によるスコアリングの結果：

モデル	対比される性能
Gemma 4-31B	2024 年後期の o1 / Claude 3.5 Sonnet 相当
Qwen 3.6-35B-A3B	2025 年初頭の o3 / Claude 4 Sonnet 相当
Qwen 3.6-27B	2025 年中盤の GPT-5 / Claude Sonnet 4.5 相当
DeepSeek-V4-Flash	2025 年後期の GPT-5.2 / Claude Opus 4.5 相当

ベンチマーク結果と一般世論を合わせると、Qwen 3.6-27B は他のモデルを大きく上回る評価を得ています。 DeepSeek V4 Flash と比較した場合、DwarfStar4（積極的量子化版）よりも劣る可能性はありますが、同等かわずかに上回る性能を持っています。

これからの展望：ローカル AI の時代

現在の状況

コスト効率: 100 ドル/月の利用料で数千ドル分のトークンを得られる割引があるため、API 側も安価になっていますが、「所有（Ownership）」の価値は変わっていません。
ローカルの強み:
- ファインチューニングが可能で、企業秘密や医療データなどを外部に漏らすリスクゼロ。
- オフライン環境での運用が可能。

今後のトレンド予測

モデルの分離進化: 現在の AI は「知能」と「知識」を同じ重みとして結合していますが、将来のモデルはこれらを分離し、多くの知識をツール呼び出しにオフロードしていく可能性があります。
デバイス拡張: スマートフォンなど、より小さなデバイスでも動作するモデルが登場するでしょう。
GLM 5.2 など: Frontier クラスのオープンウェイトモデルも、適切な予算と環境があればローカルで実行可能な時代へ移行しつつあります。

**「自分のデータを自分の責任で作動する AI」**を持つこの時期に、是非試してみてください。

Qwen 3.6 27B はローカル開発のsweet spot（最適解）です。