
2026/06/06 1:33
HN ランチ:General Instinct(YC P26)– エッジデバイス上でのフロントティアモデル
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
General Instinct は、大規模人工知能と携帯用ハードウェアの間のギャップを、Guanming および Bill が開発したオープンソースソリューション「InstinctRazor」と呼ばれる画期的な新ツールによって成功に架橋しました。同ツールの目的は、限られたシステム上でモデルの能力を維持することです。強制的な量化(aggressive quantization)およびオンポリシー蒸留(on-policy distillation)を採用し、常にアクティブなコンポーネント(ルーター、ノーム、Gated-DeltaNet/SSM レイヤー、ビジョンパスウェイ)を保存することで、245 GB の BF16 Qwen3.5-122B-A10B モデルをわずか 48 GiB の GGUF ファイルに圧縮しました。得られた量化モデルは、MMLU-Pro および GPQA-D というベンチマークで Gemma-4-26B-A4B バリアントよりも優れた性能を示すとともに、8k のコンテキストウィンドウをサポートし、最大 VRAM 使用量は約 7.6–8 GB です。この設定ではシステム RAM から専門知識をストリーミングしてさらに VRAM 需要を削減できる「小型 GPU」構成が可能です。このアプローチにより、高級 AI のハードウェア障壁が低下し、ロボットなどのエッジデバイスや標準 GPU でも最前線級の能力へのアクセスが可能になりました。今後、General Instinct はリアルワールドデプロイメントからのユーザーフィードバックに基づきツールキットの改良を予定しており、エッジデバイスにモデルをデプロイするユーザーにはボトルネックについて共有するよう呼びかけています。サブ 4 ビット frontier MoE 手法に関する技術的詳細は https://general-instinct.com/blog/frontier-moe-sub-4-bit で利用可能です。
本文
General Instinct: 最先端 MoE モデルのエッジ環境実装と GGUF 圧縮技術
🎯 背景と課題
長年にわたりロボット工学の分野で活躍してきたGeneral Instinct(郭鳴明氏とビル)は、以下の課題に直面していました。
- モデルとハードウェアのミスマッチ
- 最も優れたモデルが、現有的なハードウェアに適応できない問題。
- 高性能モデルは多くが「データセンター前提環境」(大規模 GPU、高帯域幅メモリ、安定したネットワーク)を想定して設計されている。
- 物理的制約の不一致
- ロボットやエッジデバイスなど、物理的なシステムには全く異なる制約が存在する。
🔧 解決アプローチ:InstinctRazor の開発
この課題に対し、**「最先端レベルのモデルを、どの程度の性能を保ちながらエッジ環境で実用的に運用できるか」**を探求し、その成果として InstinctRazor を開源しました。
- GitHub リポジトリ: General-Instinct/InstinctRazor
✨ 主要な技術的成果
約 245 GB の BF16 モデルを、わずか 48 GiB に圧縮することに成功しました。
📉 圧縮と性能の両立
- 対象モデル: アクティブな
Qwen3.5-122B-A10B - 達成したサイズ: 約 48 GiB の GGUF フォーマット
- 性能比較:
- 容量がより少ない
よりも小さいにもかかわらず、以下のベンチマークで優位な結果を示しています。Gem ma-4-26B-A4B- MMLU-Pro
- GPQA-D
- 容量がより少ない
⚙️ 技術的な手法
- 構造維持
- 常にアクティブとなっている部分(ロータリーエムBEDA、正規化層、Gated-DeltaNet/SSM レイヤー、ビジョンパスウェイなど)はそのまま維持。
- 積極的量化
- ルーティングされるエクスパートについては、より積極的な量化を実施。
- 性能回復(オンポリシー蒸留)
- 量化に伴う能力低下を補うため、オンポリシー蒸留手法を適用し性能を回復させています。
💻 システム要件と利点
- 小型 GPU 構成での動作可能
- エクスパートをシステム RAM からストリーミング読み込むことで動作します。
- VRAM 使用量削減
- 8,000 トークンのコンテキストウィンドウ対応時でも、ピーク VRAM 使用量は約 7.6~8 GBで抑えられます。
📚 詳細情報とコミュニティへの呼びかけ
技術的な詳細については、以下のブログ記事を参照してください。
💬 コミュニティ向け質問
ロボティクスや他のエッジデバイスへのモデル導入に関心のある皆様へ:
- ローカル環境でどのようなモデルを運用されていますか?
- 生産環境への展開において、最大のボトルネックは何だと感じていますでしょうか?