HN ランチ:General Instinct(YC P26)– エッジデバイス上でのフロントティアモデル

2026/06/06 1:33

HN ランチ:General Instinct(YC P26)– エッジデバイス上でのフロントティアモデル

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

General Instinct は、大規模人工知能と携帯用ハードウェアの間のギャップを、Guanming および Bill が開発したオープンソースソリューション「InstinctRazor」と呼ばれる画期的な新ツールによって成功に架橋しました。同ツールの目的は、限られたシステム上でモデルの能力を維持することです。強制的な量化(aggressive quantization)およびオンポリシー蒸留(on-policy distillation)を採用し、常にアクティブなコンポーネント(ルーター、ノーム、Gated-DeltaNet/SSM レイヤー、ビジョンパスウェイ)を保存することで、245 GB の BF16 Qwen3.5-122B-A10B モデルをわずか 48 GiB の GGUF ファイルに圧縮しました。得られた量化モデルは、MMLU-Pro および GPQA-D というベンチマークで Gemma-4-26B-A4B バリアントよりも優れた性能を示すとともに、8k のコンテキストウィンドウをサポートし、最大 VRAM 使用量は約 7.6–8 GB です。この設定ではシステム RAM から専門知識をストリーミングしてさらに VRAM 需要を削減できる「小型 GPU」構成が可能です。このアプローチにより、高級 AI のハードウェア障壁が低下し、ロボットなどのエッジデバイスや標準 GPU でも最前線級の能力へのアクセスが可能になりました。今後、General Instinct はリアルワールドデプロイメントからのユーザーフィードバックに基づきツールキットの改良を予定しており、エッジデバイスにモデルをデプロイするユーザーにはボトルネックについて共有するよう呼びかけています。サブ 4 ビット frontier MoE 手法に関する技術的詳細は https://general-instinct.com/blog/frontier-moe-sub-4-bit で利用可能です。

本文

General Instinct: 最先端 MoE モデルのエッジ環境実装と GGUF 圧縮技術

🎯 背景と課題

長年にわたりロボット工学の分野で活躍してきたGeneral Instinct(郭鳴明氏とビル)は、以下の課題に直面していました。

  • モデルとハードウェアのミスマッチ
    • 最も優れたモデルが、現有的なハードウェアに適応できない問題。
    • 高性能モデルは多くが「データセンター前提環境」(大規模 GPU、高帯域幅メモリ、安定したネットワーク)を想定して設計されている。
  • 物理的制約の不一致
    • ロボットやエッジデバイスなど、物理的なシステムには全く異なる制約が存在する。

🔧 解決アプローチ:InstinctRazor の開発

この課題に対し、**「最先端レベルのモデルを、どの程度の性能を保ちながらエッジ環境で実用的に運用できるか」**を探求し、その成果として InstinctRazor を開源しました。

✨ 主要な技術的成果

約 245 GB の BF16 モデルを、わずか 48 GiB に圧縮することに成功しました。

📉 圧縮と性能の両立

  • 対象モデル: アクティブな
    Qwen3.5-122B-A10B
  • 達成したサイズ: 約 48 GiB の GGUF フォーマット
  • 性能比較:
    • 容量がより少ない
      Gem ma-4-26B-A4B
      よりも小さいにもかかわらず、以下のベンチマークで優位な結果を示しています。
      • MMLU-Pro
      • GPQA-D

⚙️ 技術的な手法

  1. 構造維持
    • 常にアクティブとなっている部分(ロータリーエムBEDA、正規化層、Gated-DeltaNet/SSM レイヤー、ビジョンパスウェイなど)はそのまま維持。
  2. 積極的量化
    • ルーティングされるエクスパートについては、より積極的な量化を実施。
  3. 性能回復(オンポリシー蒸留)
    • 量化に伴う能力低下を補うため、オンポリシー蒸留手法を適用し性能を回復させています。

💻 システム要件と利点

  • 小型 GPU 構成での動作可能
    • エクスパートをシステム RAM からストリーミング読み込むことで動作します。
  • VRAM 使用量削減
    • 8,000 トークンのコンテキストウィンドウ対応時でも、ピーク VRAM 使用量は約 7.6~8 GBで抑えられます。

📚 詳細情報とコミュニティへの呼びかけ

技術的な詳細については、以下のブログ記事を参照してください。

💬 コミュニティ向け質問

ロボティクスや他のエッジデバイスへのモデル導入に関心のある皆様へ:

  • ローカル環境でどのようなモデルを運用されていますか?
  • 生産環境への展開において、最大のボトルネックは何だと感じていますでしょうか?

同じ日のほかのニュース

一覧に戻る →

2026/06/06 9:33

現代カメラレンズ修理の複雑さ(2024年)

## Japanese Translation: ユーザーは、Lumix S5 カメラとのペアリング後に電子制御が停止していたシグマ 45mm f/2.8 I シリーズレンズを正常に復旧させた。修理は、制御用印刷回路基板(PCB)上の破損したヒューズを交換することで達成され、これは TI ブックコンバーター(TI Buck コンバーター)を保護するものである。分解の結果、特定のコマンドが故障していることが明らかになり、それは長い間自動フェーズコンポジション(AFC)オートフォーカスを使用した場合に引き起こされた過電流イベントによる可能性が高い。マルチメータ測定で損傷が確認され、フレックスケーブルや東芝製のマイクロコントローラーを含む他の部品が健全であることも同時に検証された。このプロジェクトは低価格での eBay 購入から始まり、シグマの GrabCAD から入手した無料の 3D プリンティング用治具により高精度な診断プロービングが可能となった。1 時間未満で完了し、現在、園芸写真や電子機器ドキュメンテーションなどの用途に対して完全に機能している。この修理は、高価な電子故障を分解して全体を廃棄するのではなく、ターゲットとした部品交換によって迅速に解決できることを実証している。また、類似のシグマレンズをトラブルシューティングする際に内部電源トレースとヒューズ定格を理解することの重要性も示している。 ## Summary: ユーザーは、Lumix S5 カメラとのペアリング後に電子制御が停止していたシグマ 45mm f/2.8 I シリーズレンズを正常に復旧させた。修理は、制御用印刷回路基板(PCB)上の破損したヒューズを交換することで達成され、これは TI ブックコンバーター(TI Buck コンバーター)を保護するものである。分解の結果、特定のコマンドが故障していることが明らかになり、それは長い間自動フェーズコンポジション(AFC)オートフォーカスを使用した場合に引き起こされた過電流イベントによる可能性が高い。マルチメータ測定で損傷が確認され、フレックスケーブルや東芝製のマイクロコントローラーを含む他の部品が健全であることも同時に検証された。このプロジェクトは低価格での eBay 購入から始まり、シグマの GrabCAD から入手した無料の 3D プリンティング用治具により高精度な診断プロービングが可能となった。1 時間未満で完了し、現在、園芸写真や電子機器ドキュメンテーションなどの用途に対して完全に機能している。この修理は、高価な電子故障を分解して全体を廃棄するのではなく、ターゲットとした部品交換によって迅速に解決できることを実証している。また、類似のシグマレンズをトラブルシューティングする際に内部電源トレースとヒューズ定格を理解することの重要性も示している。

2026/06/06 12:36

ロックダウンモード

## Japanese Translation: マイクロソフトは、「Lockdown Mode」というオプションの高度なセキュリティ設定をロールアウトしています。この機能は、プロンプトインジェクション攻撃から生じるデータ流出リスクを大幅に低減することを目的としており、ライブウェブ閲覧、深層リサーチ、画像分析、エージェント機能へのアクセスを制限することで実現します。本機能は、適格な個人アカウント(Free、Go、Plus、Pro)およびセルフサービス型の ChatGPT ビジネスアカウントで利用可能です。ただし、導入状況は地域やユーザーの状態によって異なります。管理者は、RBAC を通じてユーザーにカスタム「Lockdown Mode」ロールを割り当てることで制限を強制でき、これにより自動的に Developer Mode が無効化され、信頼できないアプリに対するコネクタの書込み操作などの高リスクアクションが制限されます。Lockdown Mode は外部ソースからのリスクを効果的に低下させますが、アップロードされたファイルや有効化されたアプリなどからのものでないすべての攻撃を防ぐ保証は提供せず、明示的に管理されない限り、同期コネクタなどの中リスク項目が活性状態のままになる可能性があります。個人アカウントでは、ライブコネクタへのアクセスがブロックされますが、同期されたデータの使用は許可されます。管理されたワークスペースの管理者は、信頼できるアプリ/アクションを手動で有効化する必要があるため、Lockdown Mode がすべてのアプリ/MCP/コネクタを自動的に無効化するわけではありません。ユーザーは個別のチャットごとに「Manage」オプションまたはメニューを通じて Lockdown Mode からオプトアウトすることができ、これにより他のチャットやメモリ履歴には影響しません。高リスクアクション(例:信頼できないアプリへの読込/書込み)は強く推奨されず、中リスク項目(例:同期コネクタ)については副作用の可能性がありますので注意が必要です。重要なのは、Lockdown Mode は機能性を低下させる点です。ライブインターネットアクセスと完全な画像分析が無効化されますが、手動でのファイルアップロード、メモリの使用、会話の共有、モデル改善データの提供、そしてコンプライアンス API ログプラットフォームによるアプリの使用状況および接続されたソースへの可視性は維持されます。

2026/06/04 5:15

LLM がどのように動作するか

## Japanese Translation: 現代の大規模言語モデルは、非常に標準化されたアーキテクチャ・スタックに収斂しており、これは主要モデル(例:GPT、Claude、LLaMA)間の差異が、根本的な構造革新ではなく、トレーニングデータ、スケーリング、特定の構成、そしてポストトレーニングのプロセスによるものになったことを意味します。このコンセンサスは、2017 年の Transformer の初期設計以来の 5 年にわたる洗練の上に成り立っており、回転位置埋め込み(RoPE)、RMSNorm、SwiGLU、グループクエリアテンション(GQA)、およびエキスパートミックス(MoE)といった主要な構成要素が、安定性と効率性の観点から最適な選択となっています。具体的には、モデルは語彙サイズのバランスと汎化性能を実現するためにサブワードトークン化戦略(例:BPE や SentencePiece)を採用し、RoPE は従来の三角関数型エンコーディングよりも順序情報を効果的に注入します。アーキテクチャは、特異な処理のためにマルチヘッドアテンションを活用し、高密度パラメータを記憶するためにフィードフォワードネットワークを利用し、深層ネットワークにおける安定したトレーニングのためには RMSNorm を使用します。結果として、これらの最適化され共有されたメカニズムを通じて、産業全体はメモリ圧力と推論コストの削減という恩恵を受けています。将来の傾向は、ヘッド数や MoE アクティブ比率などの既存構成を洗練させる方向にあるものであり、破壊的な構造変化ではなく、確立されたパスを通じた継続的な進展を確保します。

HN ランチ:General Instinct(YC P26)– エッジデバイス上でのフロントティアモデル | そっか~ニュース