
2026/06/30 2:05
Qwen 3.6 27B はローカル開発のsweet spot(最適解)です。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
本文は、ローカルコード生成のために Qwen 3.6 27B デンスモデルを優先すること advises(推奨)しています。これは、指示追従の精度と効率的なパフォーマンスのバランスが取れており、Node パッケージの作成といった特定のタスクで失敗する可能性があるように 35B の A3B mixture-of-experts などのより大きなバリエーションを上回る場合があるためです。ベンチマークによると、このモデルは消費者向けハードウェア上で効率的に動作しながら、2025 年の中盤の GPT-5 程度の知能レベルに達します。Apple M5 チップ(共有 RAM を最大 48 GB 使用)では約 30 トokens/秒、量子化された状態で高級な Nvidia RTX 5090 カードでは 50 トokens/秒 にスケールします。重要なのは、著者が倫理的かつ技術的な理由から、Ollama ではなく
llama-server または llama-cli を使用して Hugging Face の量子化版(例:unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0)でモデルを実行することを推奨している点です。この構成により、開発者は OpenCode エージェントなどのツールと互換性のあるセキュアな「vibe coding」環境を構築できます。ローカルでモデルを実行することは、データのプライバシーを維持し、機密情報が外部の米中クラウドプロバイダーに漏洩することなく、オフラインでの作業をサポートするために不可欠です。将来的にはツールの呼び出しを通じて事実知識と生粋の知能を分ける傾向があるかもしれませんが、この即席のソリューションは品質を損なうことなく、個人および小規模チームの開発者にとってアクセス可能な入門点を提供します。より大きなモデルが将来的にはエンタープライズレベルのハードウェアを必要とするでしょうが、27B バリエーションは現在、標準的な消費者向けハードウェア上で DeepSeek-V4 Flash などのフロンティア代替案と比較できる堅牢でプライベートな AI 機能を 제공합니다(提供しています)本文
Qwen 3.6:ローカル環境での「実用的な汎用 AI」への道筋
総評:なぜ Qwen 3.6 が特別なのか
これまでローカルモデルに失望した経験がありましたが、Qwen 3.6 を検証した際はその能力に圧倒されました。これこそが、私が求める「実際に意味を持つ最初のローカル汎用知能(AGI)」です。
同シリーズには以下の 2 つのバリエーションがあります:
- Qwen 3.6-35B-A3B:専門家集団方式(Mixture-of-Experts)を採用したモデル
- Qwen 3.6-27B:低速ながら高密度な強力なモデル
著者は、後者の Qwen 3.6-27B を強くお勧めします。
実機テスト結果
- 物理的な反応: 動作中の発熱が凄まじく、膝が溶けそうなほどでした(携帯用赤外線カメラで撮影)。
- 注目を集める: Hacker News で「Qwen 3.6-27B はその能力を凌駕するほど優秀」という声が挙がる中、著者は「評価に足る性能」だと確信しました。
- コストパフォーマンス: 確かに消費電力(熱)はかかりますが、それを支払うだけの価値があります。
試行錯誤の始まり:Smoke Test
モデルの能力を素早く検証するためのテスト(Smoke Test)を行います。Simon Willison 氏は「自転車に乗るペンギン」を題材にしています。著者は通常、制約付きのクリエイティブな執筆を試みます。
テストケース 1:量子物理学と詩
- 指示内容: 量子物理学に関する解説と韻律の両面から合理的で、「Zouk ダンス」を詠む 8 行詩を作成させる。
- 結果: 思考プロセス(量子用語、韻律)が完全に正解。
テストケース 2:コーディングタスク(OpenCode)
- 指示内容: pnpm を使用して「六角形のマインスイーパークラー」を生成させる。
- Qwen 3.6-27B の結果:
- 単一のプロンプトで即座に成功。
- 正しい Node パッケージが構築された。
- Qwen 3.6-35B-A3B の結果:
- プロンプトを無視して「単一ファイルの index.html」を作成した(指示に従わなかった)。
結論: ローカル版でも、GPT-4.5 級の実装能力を持ちつつ、コストパフォーマンスは劇的に向上しています。
本格的な作業:日常タスクでの性能
日常的な業務においても Qwen 3.6-27B は十分な優秀さを発揮します。 AI エージェント(OpenCode など)を動かす際も、短くシンプルで反応のいいプロンプトが機能し、「オールインワン」の実現が可能です。
ローカル環境での実行方法:llama.cpp で始める
Ollama ではなく、llama.cpp を推奨します。
- 理由: デバイス横断で動作可能であり、論理的・倫理的観点からも推奨されるオープンソースツールです。
- 手順: Hugging Face から量子化(サイズ縮小)されたモデルを取得し、CLI コマンド 1 つで起動します。
モデルの選択
- 推奨モデル:
unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0- 8 ビット量子化(容量半減、品質維持)。
- MTP(マルチトークン予測) サポートにより高速化。
サーバー起動コマンド
以下を
llama-server で実行してください:
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
コマンド解説
| パラメータ | 説明 |
|---|---|
| Hugging Face からモデルを取得・キャッシュ(起動時以外でも再利用可)。 |
| ローカルにモデルがある場合はこのパスを使用。 |
| 高速化機能。複数のトークンを同時に予測し処理速度を向上。 |
| GPU メモリ活用。計算層をすべて GPU に配置(999 は全層の指示)。 |
| Flash Attention を有効化(メモリ効率と速度向上)。 |
| コンテキストサイズを 64k トークン に設定(必要なら調整可。ネイティブは 256k)。 |
| リッスンポートを明示指定(推奨)。 |
起動後、
http://127.0.0.1:8080 をブラウザで開くとチャットが可能です。
OpenCode 設定例
エージェントとして OpenCode を使う場合、以下の設定を追加します:
{ "$schema": "https://opencode.ai/config.json", "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" }
クライアントからの実行(ターミナル派)
チャットのみで、CLI を使う場合は
llama-cli を使用:
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536
パフォーマンス測定結果
MacBook Max M5 (128GB RAM) での検証結果です。
ベンチマーク比較(Tokens/Second)
- DeepSeek-V4-Flash (Q2〜Q4 量子化): 約 30 トokens/sec。先進モデル API 程度の速度です。
- 注:mlx-lm は Apple Silicon 向けですが、llama.cpp の方がさらに高速でした。
- GPU 利用率: 95% と非常に高い効率性。
- Qwen 3.6-27B vs 35B-A3B:
- 35B-A3B は約 3 倍速いですが、Qwen 3.6-27B を推奨します。
- コード生成量は半分以下になりますが、品質は格段に向上するためです。
ハードウェア要件
- Apple Silicon (MacBook): 共有メモリ 48 GB 以内で動作確認済み。
- NVIDIA RTX コンシューマー: より積極的な量子化が必要ですが、推論速度自体はさらに高まります(例:RTX 5090 で Q6_K+Q4_0 の設定なら安定して 50 トokens/sec)。
State-of-the-Art モデルとの評価比較
人工知能分析によるスコアリングの結果:
| モデル | 対比される性能 |
|---|---|
| Gemma 4-31B | 2024 年後期の o1 / Claude 3.5 Sonnet 相当 |
| Qwen 3.6-35B-A3B | 2025 年初頭の o3 / Claude 4 Sonnet 相当 |
| Qwen 3.6-27B | 2025 年中盤の GPT-5 / Claude Sonnet 4.5 相当 |
| DeepSeek-V4-Flash | 2025 年後期の GPT-5.2 / Claude Opus 4.5 相当 |
ベンチマーク結果と一般世論を合わせると、Qwen 3.6-27B は他のモデルを大きく上回る評価を得ています。 DeepSeek V4 Flash と比較した場合、DwarfStar4(積極的量子化版)よりも劣る可能性はありますが、同等かわずかに上回る性能を持っています。
これからの展望:ローカル AI の時代
現在の状況
- コスト効率: 100 ドル/月の利用料で数千ドル分のトークンを得られる割引があるため、API 側も安価になっていますが、「所有(Ownership)」の価値は変わっていません。
- ローカルの強み:
- ファインチューニングが可能で、企業秘密や医療データなどを外部に漏らすリスクゼロ。
- オフライン環境での運用が可能。
今後のトレンド予測
- モデルの分離進化: 現在の AI は「知能」と「知識」を同じ重みとして結合していますが、将来のモデルはこれらを分離し、多くの知識をツール呼び出しにオフロードしていく可能性があります。
- デバイス拡張: スマートフォンなど、より小さなデバイスでも動作するモデルが登場するでしょう。
- GLM 5.2 など: Frontier クラスのオープンウェイトモデルも、適切な予算と環境があればローカルで実行可能な時代へ移行しつつあります。
**「自分のデータを自分の責任で作動する AI」**を持つこの時期に、是非試してみてください。