
2026/04/21 3:46
Qwen3.5-27B を RTX 3090 で動作させた際の推論速度は 207 トークン/秒(tok/s)でした。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
このプロジェクトは、大規模言語モデルの推論コードを消費者向けハードウェアに特化して書き直すことで、根本的にローカルAIを進化させます。クラウドソリューションよりも効率性とプライバシーを優先しています。その中心的な革新は、「メガカーネル」と呼ばれるアプローチであり、複数のモデル層を単一の独自 CUDA カーネルに結合することで、NVIDIA RTX 3090 など既存のシリコン上でスループットを最大化します。この手法は、推定デコーディング(具体的には DFlash および DDTree アルゴリズム)を利用し、標準的な手法と比較して最大 5.46 倍の高速な生成速度を実現しながら、Q4_K_M などの最適化されたメモリーフォーマットを用いることで厳しい VRAM 制約の中を動作させます。Python ランタイムを使用せず効率的な C++ で構築されているため、ベンダーロックインや高い電気代の問題を解消します。当初の目標は、現在のハードウェアでのパフォーマンス refinement および電力消費量の最適化(DVFS リミットの活用など)に焦点を当てており、将来のターゲットとしては新しい Ryzen AI チップへの対応と CPU と GPU の協調動作の強化を含みます。究極的には、このシフトにより、アクセス可能な機器上での強力でありながら持続可能かつ安全なローカル AI の展開が可能になります。
本文
オープン LLM 推論:特定のチップごとに手作業で書き換えられたアプローチ
カーネル、Speculative Decoding(予測的デコード)、そして量子化といった技術は、それぞれターゲットとなるハードウェアに合わせてカスタマイズされています。私たちはより優れたシリコン(半導体)を待つことをせず、ソフトウェアを書き換えることで対応しています。
箱の中身
現在は 2 つのプロジェクトを提供しており、今後さらに追加されます。各リリースは独立したものであり、独自のベンチマーク結果と論文スタイルの説明が付いています。
01 · Megakernel: RTX 3090 で動作する Qwen3.5 0.8B
ハイブリッドな DeltaNet/Attention アーキテクチャを持つ大規模言語モデル (LLM) に対向した初の「メガカーネル」です。Qwen 3.5-0.8B モデルのすべての 24 レイヤーを、単一の CUDA ディスパッチで処理します。これにより、2020 年発売の GPU(RTX 3090)上で 1.87 tok/J のエネルギー効率を達成し、アップルの最新のシリコン製品と同等の性能を得ながら、その 2 倍の Throughput(動作速度)を実現しています。
セットアップ手順
# 1. リポジトリをクローンしてディレクトリに移動 git clone https://github.com/Luce-Org/lucebox-hub && cd lucebox-hub/megakernel # 2. インストール (Python 3.10 以上、CUDA 12 以上、PyTorch 2.0 以上が必要) # 初回実行時にモデルウェイトは Hugging Face から自動的にストリーミングされます。 pip install -e . # 3. ベンチマークを実行 (Prefill: pp520 + Decode: tg128 の設定で比較) # 比較対象:llama.cpp BF16 と PyTorch HF python final_bench.py
パフォーマンス比較表
| 手法 | Prefill (トークン/秒) @ 消費電力 | Decode (トークン/秒) | 効率性 (tok/J) |
|---|---|---|---|
| Megakernel | 37,800 @ 220W | 413 | 1.87 |
| llama.cpp BF16 | 11,247 @ 350W | 267 | 0.76 |
| PyTorch HF | 7,578 | 108 | n/a |
なぜこれが機能するのか
- アーキテクチャ: 82 ブロック、512 スレッドを使用。レイヤー間での CPU と GPU の往復通信を一切行いません。
- ストリーミング処理: モデルのウェイトは、Hugging Face から直接ストリーミングされて読み込まれます。
- 同期手法: トークンあたり約 100 回のカーネル起動に代わり、協調的なグリッド同期(Cooperative grid sync)を採用しています。
- 電力管理: 計算リソースの限界よりも先に電力上限に達するように設計されており、DVFS を活用することで緊密な実行をそのままワットの節約へと変換します。
02 · DFlash DDTree: RTX 3090 で動作する Qwen3.5 27B GGUF
DFlash の Speculative Decoding(予測的デコード)向けの初の GGUF ポート版です。RTX 3090 単機で Qwen3.5-27B を実行し、Q4_K_M ターゲット + BF16 ドラフト(予測テキスト)を用いて、DDTree の予算を 22 に設定しています。
メイン結果
- 動作速度 (Throughput): デモでは最大 207 トークン/秒 を達成しました(DFlash: 207.6 tok/s vs 従来の AR: 38.0 tok/s、5.46 倍の高速化)。
- ベンチマーク: HumanEval (10 プロンプトベンチ) で平均 129.5 トークン/秒 を記録。
- 比較成績:
- オーダーリークティブ (AR) モードより 3.43 倍高速(チェーン方式の Speculative Decoding より +15% の性能向上)。
- 同じハードウェア上で動作する SGLang AWQ より 2.8 倍高速。
- 24GB のメモリ上で 128K コンテキストを処理可能(ctx=131072 で 134.78 tok/s を達成)。
セットアップ手順
# 1. サブモジュールを含むクローン (固定された Luce-Org/llama.cpp@luce-dflash のフォークをプル) git clone --recurse-submodules https://github.com/Luce-Org/lucebox-hub && cd lucebox-hub/dflash # 2. C++/CUDA デコードエンジンの構築 (sm_86, CUDA 12+, CMake 3.18+ の環境で約 3 分) cmake -B build -S . -DCMAKE_CUDA_ARCHITECTURES=86 -DCMAKE_BUILD_TYPE=Release cmake --build build --target test_dflash -j # 3. モデルウェイトをダウンロード (~16GB の Q4_K_M ターゲット + 約 3.46GB の bf16 ドラフト) huggingface-cli download unsloth/Qwen3.5-27B-GGUF Qwen3.5-27B-Q4_K_M.gguf --local-dir models/ huggingface-cli download z-lab/Qwen3.5-27B-DFlash model.safetensors --local-dir models/draft/ # 4a. ワンショットストリーミング生成 python3 scripts/run.py --prompt "def fibonacci(n):" # 4b. または、論文スタイルのベンチマークを再現 (HumanEval + GSM8K + Math500, 約 15 分) python3 scripts/bench_llm.py
ベンチマーク結果表
| モデル | AR (トークン/秒) | DFlash+DDTree (トークン/秒) | 高速化比率 |
|---|---|---|---|
| HumanEval | 37.8 | 129.5 | 3.43× |
| Math500 | 37.7 | 110.5 | 2.93× |
| GSM8K | 37.7 | 96.2 | 2.55× |
技術詳細と制約条件
本プロジェクトの形状を作った制約事項は、Qwen3.5-27B の AWQ INT4 量子化と BF16 ドラフトを組み合わせることで、24GB の RTX 3090 カードに DDTree の検証状態 (verify state) を収める余地がなくなってしまう点です。したがって、Q4_K_M GGUF (約 16 GB) が、ターゲット (+3.46GB ドラフト + 予算 22 のツリー状態 + KV キャッシュ) を 24GB で収める最大のフォーマットとなります。この構成を選んだことは、GGML アーキテクチャへの新しいポートを必要としたことを意味します(公衆向けの DFlash ランタイムには GGUF ターゲットをサポートするものが存在しないため)。
私たちが構築したもの vs. ポート化されたもの
コアアルゴリズム自体は当社のものではありません:
- DFlash (z-lab, 2026): ターゲットの隠れ状態に条件付けられたブロック拡散(Block-diffusion)型のドラフト。
- DDTree (Ringel ら, 2026): 同じ計算予算内でチェーン型検証より優れた、ツリー構造による検証手法。
我々のポート作業とチューニング:
- GGML の上位に C++/CUDA デコードエンジンを実装(libllama や Python ランタイム不使用、Q4_K_M ターゲット経路)。
- ツリー認識型 SSM 状態のロールバックのために、3 つのカスタム CUDA カーネルを開発:
,ggml_ssm_conv_tree
,ggml_gated_delta_net_tree
。ggml_gated_delta_net_tree_persist - RTX 3090 + Q4_K_M ターゲット向けの DDTree 予算を探索した結果、budget=22 が最適解(スイートスポット)であることが確認できました。
- Q4_0 KV キャッシュとスライドする target_feat リングを採用し、128K コンテキストを 24GB で収容(約 3% の AL ヒット率)。
なぜこのプロジェクトが存在するのか
ローカル AI は「特権」ではなく「デフォルト」で利用されるべきです。私的なデータを扱えること、トークン課金が不要なこと、ベンダーへの依存からの解放。すでにデスクトップに配置されている有能なモデルを実行できるハードウェアが存在する一方、そのチップを最大限活かすためのソフトウェアは不足しています。汎用フレームワークが過去 10 年間を支配したのは、「チップごとにカーネルを手作業で調整すること」が高価すぎるとみなされたからです。一つのスタックで全分野において「まあまあの性能」を得ることはできましたが、「何一つに特化するものでもありません」という状態でした。結果として、多くのシリコンの可能性は未利用のまま床に置かれていました。
AI 支援開発はこれを逆転させます。 これまで数ヶ月を要した書き換え作業も、今ではリリースサイクルの中で対応可能です。Lucebox は、チップとモデルファミリーごとに順次公開していく場所です。MIT ライセンス元、完全な記述、再現可能なベンチマークを提供します。
要件
- NVIDIA GPU: Ampere アーキテクチャ以上 (sm_86+)。RTX 3090 (2020 年製) で検証済み。
- 依存ライブラリ: CUDA 12 以上、PyTorch 2.0 以上。
- ビルドツール (DFlash 用): CMake 3.18 以上と
オプション(固定された--recurse-submodules
フォークをプルするため、ツリーモードの ggml 演算 3 つが必要)。Luce-Org/llama.cpp@luce-dflash - 電力最適化ヒント (オプション): GPU のスイートスポットを見つける:
(Megakernel は 220W で最高の tok/J を発揮します)。sudo nvidia-smi -pl 220
リポジトリ構成
lucebox-hub/ ├── megakernel/ · Qwen 3.5-0.8B 用の融合フォワードパス ├── dflash/ · RTX 3090 上で動作する Qwen 3.5-27B への DFlash Speculative Decoding ポート └── assets/ · バナー、カード、図表などのアセット
ロードマップ
| 四半期 | プロジェクトステータス |
|---|---|
| Q1 2026 | ▮▮▮▮▮▮▮▮▮▮ RTX 3090 カーネルと最適化処理 |
| Q2 2026 | ▮▮▮▮▮▯▯▯▯▯ Ryzen AI MAX+ 395 の最適化 |
| Q2 2026 | ▮▮▯▯▯▯▯▯▯▯ CPU と GPU の混合環境におけるレイテンシ最適化 |
引用方法 (Citation)
@software{lucebox_2026, title = {Lucebox: Open LLM Inference, Rewritten by Hand for One Specific Chip at a Time}, author = {Lucebox}, url = {https://github.com/Luce-Org/lucebox-hub}, year = {2026} }
※各サブプロジェクトの詳細な引用情報は、それぞれの README ファイルに記載されています。
参考にしている研究・開発者
- Hazy Research: メガカーネルのアイデアと「ワットあたりの知能」(intelligence-per-watt) という評価手法。
- z-lab/DFlash (Wang ら, 2026): ブロック拡散型の Speculative Decoding アルゴリズム。我々は公開されている Qwen3.5-27B-DFlash ドラフトウェイトをそのまま利用しています。
- DDTree (Ringel & Romano, 2026): DFlash 27B がチェーン型 Speculative Decoding に対して 3.5 倍の高速化を実現するために使用している、ツリー構造による検証手法 (
)。liranringel/ddtree - AlpinDale/qwen_megakernel、Infatoshi/MegaQwen: 融合された Qwen カーネルに関する先行研究 (prior art)。
コミュニティ
- Discord: discord.gg/yHfswqZmJQ
- ウェブサイト: lucebox.com
- イシュー報告: github.com/Luce-Org/lucebox-hub/issues
- ブログ: lucebox.com/blog
MIT ライセンス | Lucebox.com