Qwen3.5-27B を RTX 3090 で動作させた際の推論速度は 207 トークン/秒(tok/s)でした。

2026/04/21 3:46

Qwen3.5-27B を RTX 3090 で動作させた際の推論速度は 207 トークン/秒(tok/s)でした。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

このプロジェクトは、大規模言語モデルの推論コードを消費者向けハードウェアに特化して書き直すことで、根本的にローカルAIを進化させます。クラウドソリューションよりも効率性とプライバシーを優先しています。その中心的な革新は、「メガカーネル」と呼ばれるアプローチであり、複数のモデル層を単一の独自 CUDA カーネルに結合することで、NVIDIA RTX 3090 など既存のシリコン上でスループットを最大化します。この手法は、推定デコーディング(具体的には DFlash および DDTree アルゴリズム)を利用し、標準的な手法と比較して最大 5.46 倍の高速な生成速度を実現しながら、Q4_K_M などの最適化されたメモリーフォーマットを用いることで厳しい VRAM 制約の中を動作させます。Python ランタイムを使用せず効率的な C++ で構築されているため、ベンダーロックインや高い電気代の問題を解消します。当初の目標は、現在のハードウェアでのパフォーマンス refinement および電力消費量の最適化(DVFS リミットの活用など)に焦点を当てており、将来のターゲットとしては新しい Ryzen AI チップへの対応と CPU と GPU の協調動作の強化を含みます。究極的には、このシフトにより、アクセス可能な機器上での強力でありながら持続可能かつ安全なローカル AI の展開が可能になります。

本文

オープン LLM 推論:特定のチップごとに手作業で書き換えられたアプローチ

カーネル、Speculative Decoding(予測的デコード)、そして量子化といった技術は、それぞれターゲットとなるハードウェアに合わせてカスタマイズされています。私たちはより優れたシリコン(半導体)を待つことをせず、ソフトウェアを書き換えることで対応しています。

箱の中身

現在は 2 つのプロジェクトを提供しており、今後さらに追加されます。各リリースは独立したものであり、独自のベンチマーク結果と論文スタイルの説明が付いています。


01 · Megakernel: RTX 3090 で動作する Qwen3.5 0.8B

ハイブリッドな DeltaNet/Attention アーキテクチャを持つ大規模言語モデル (LLM) に対向した初の「メガカーネル」です。Qwen 3.5-0.8B モデルのすべての 24 レイヤーを、単一の CUDA ディスパッチで処理します。これにより、2020 年発売の GPU(RTX 3090)上で 1.87 tok/J のエネルギー効率を達成し、アップルの最新のシリコン製品と同等の性能を得ながら、その 2 倍の Throughput(動作速度)を実現しています。

セットアップ手順

# 1. リポジトリをクローンしてディレクトリに移動
git clone https://github.com/Luce-Org/lucebox-hub && cd lucebox-hub/megakernel

# 2. インストール (Python 3.10 以上、CUDA 12 以上、PyTorch 2.0 以上が必要)
# 初回実行時にモデルウェイトは Hugging Face から自動的にストリーミングされます。
pip install -e .

# 3. ベンチマークを実行 (Prefill: pp520 + Decode: tg128 の設定で比較)
# 比較対象:llama.cpp BF16 と PyTorch HF
python final_bench.py

パフォーマンス比較表

手法Prefill (トークン/秒) @ 消費電力Decode (トークン/秒)効率性 (tok/J)
Megakernel37,800 @ 220W4131.87
llama.cpp BF1611,247 @ 350W2670.76
PyTorch HF7,578108n/a

なぜこれが機能するのか

  • アーキテクチャ: 82 ブロック、512 スレッドを使用。レイヤー間での CPU と GPU の往復通信を一切行いません。
  • ストリーミング処理: モデルのウェイトは、Hugging Face から直接ストリーミングされて読み込まれます。
  • 同期手法: トークンあたり約 100 回のカーネル起動に代わり、協調的なグリッド同期(Cooperative grid sync)を採用しています。
  • 電力管理: 計算リソースの限界よりも先に電力上限に達するように設計されており、DVFS を活用することで緊密な実行をそのままワットの節約へと変換します。

詳細報告 · ベンチマーク · ブログ記事


02 · DFlash DDTree: RTX 3090 で動作する Qwen3.5 27B GGUF

DFlash の Speculative Decoding(予測的デコード)向けの初の GGUF ポート版です。RTX 3090 単機で Qwen3.5-27B を実行し、Q4_K_M ターゲット + BF16 ドラフト(予測テキスト)を用いて、DDTree の予算を 22 に設定しています。

メイン結果

  • 動作速度 (Throughput): デモでは最大 207 トークン/秒 を達成しました(DFlash: 207.6 tok/s vs 従来の AR: 38.0 tok/s、5.46 倍の高速化)。
  • ベンチマーク: HumanEval (10 プロンプトベンチ) で平均 129.5 トークン/秒 を記録。
  • 比較成績:
    • オーダーリークティブ (AR) モードより 3.43 倍高速(チェーン方式の Speculative Decoding より +15% の性能向上)。
    • 同じハードウェア上で動作する SGLang AWQ より 2.8 倍高速。
    • 24GB のメモリ上で 128K コンテキストを処理可能(ctx=131072 で 134.78 tok/s を達成)。

セットアップ手順

# 1. サブモジュールを含むクローン (固定された Luce-Org/llama.cpp@luce-dflash のフォークをプル)
git clone --recurse-submodules https://github.com/Luce-Org/lucebox-hub && cd lucebox-hub/dflash

# 2. C++/CUDA デコードエンジンの構築 (sm_86, CUDA 12+, CMake 3.18+ の環境で約 3 分)
cmake -B build -S . -DCMAKE_CUDA_ARCHITECTURES=86 -DCMAKE_BUILD_TYPE=Release
cmake --build build --target test_dflash -j

# 3. モデルウェイトをダウンロード (~16GB の Q4_K_M ターゲット + 約 3.46GB の bf16 ドラフト)
huggingface-cli download unsloth/Qwen3.5-27B-GGUF Qwen3.5-27B-Q4_K_M.gguf --local-dir models/
huggingface-cli download z-lab/Qwen3.5-27B-DFlash model.safetensors --local-dir models/draft/

# 4a. ワンショットストリーミング生成
python3 scripts/run.py --prompt "def fibonacci(n):"

# 4b. または、論文スタイルのベンチマークを再現 (HumanEval + GSM8K + Math500, 約 15 分)
python3 scripts/bench_llm.py

ベンチマーク結果表

モデルAR (トークン/秒)DFlash+DDTree (トークン/秒)高速化比率
HumanEval37.8129.53.43×
Math50037.7110.52.93×
GSM8K37.796.22.55×

技術詳細と制約条件

本プロジェクトの形状を作った制約事項は、Qwen3.5-27B の AWQ INT4 量子化と BF16 ドラフトを組み合わせることで、24GB の RTX 3090 カードに DDTree の検証状態 (verify state) を収める余地がなくなってしまう点です。したがって、Q4_K_M GGUF (約 16 GB) が、ターゲット (+3.46GB ドラフト + 予算 22 のツリー状態 + KV キャッシュ) を 24GB で収める最大のフォーマットとなります。この構成を選んだことは、GGML アーキテクチャへの新しいポートを必要としたことを意味します(公衆向けの DFlash ランタイムには GGUF ターゲットをサポートするものが存在しないため)。

私たちが構築したもの vs. ポート化されたもの

コアアルゴリズム自体は当社のものではありません:

  • DFlash (z-lab, 2026): ターゲットの隠れ状態に条件付けられたブロック拡散(Block-diffusion)型のドラフト。
  • DDTree (Ringel ら, 2026): 同じ計算予算内でチェーン型検証より優れた、ツリー構造による検証手法。

我々のポート作業とチューニング:

  • GGML の上位に C++/CUDA デコードエンジンを実装(libllama や Python ランタイム不使用、Q4_K_M ターゲット経路)。
  • ツリー認識型 SSM 状態のロールバックのために、3 つのカスタム CUDA カーネルを開発:
    ggml_ssm_conv_tree
    ,
    ggml_gated_delta_net_tree
    ,
    ggml_gated_delta_net_tree_persist
  • RTX 3090 + Q4_K_M ターゲット向けの DDTree 予算を探索した結果、budget=22 が最適解(スイートスポット)であることが確認できました。
  • Q4_0 KV キャッシュとスライドする target_feat リングを採用し、128K コンテキストを 24GB で収容(約 3% の AL ヒット率)。

詳細報告 · ベンチマーク · ブログ記事


なぜこのプロジェクトが存在するのか

ローカル AI は「特権」ではなく「デフォルト」で利用されるべきです。私的なデータを扱えること、トークン課金が不要なこと、ベンダーへの依存からの解放。すでにデスクトップに配置されている有能なモデルを実行できるハードウェアが存在する一方、そのチップを最大限活かすためのソフトウェアは不足しています。汎用フレームワークが過去 10 年間を支配したのは、「チップごとにカーネルを手作業で調整すること」が高価すぎるとみなされたからです。一つのスタックで全分野において「まあまあの性能」を得ることはできましたが、「何一つに特化するものでもありません」という状態でした。結果として、多くのシリコンの可能性は未利用のまま床に置かれていました。

AI 支援開発はこれを逆転させます。 これまで数ヶ月を要した書き換え作業も、今ではリリースサイクルの中で対応可能です。Lucebox は、チップとモデルファミリーごとに順次公開していく場所です。MIT ライセンス元、完全な記述、再現可能なベンチマークを提供します。

要件

  • NVIDIA GPU: Ampere アーキテクチャ以上 (sm_86+)。RTX 3090 (2020 年製) で検証済み。
  • 依存ライブラリ: CUDA 12 以上、PyTorch 2.0 以上。
  • ビルドツール (DFlash 用): CMake 3.18 以上と
    --recurse-submodules
    オプション(固定された
    Luce-Org/llama.cpp@luce-dflash
    フォークをプルするため、ツリーモードの ggml 演算 3 つが必要)。
  • 電力最適化ヒント (オプション): GPU のスイートスポットを見つける:
    sudo nvidia-smi -pl 220
    (Megakernel は 220W で最高の tok/J を発揮します)。

リポジトリ構成

lucebox-hub/
├── megakernel/    · Qwen 3.5-0.8B 用の融合フォワードパス
├── dflash/        · RTX 3090 上で動作する Qwen 3.5-27B への DFlash Speculative Decoding ポート
└── assets/        · バナー、カード、図表などのアセット

ロードマップ

四半期プロジェクトステータス
Q1 2026▮▮▮▮▮▮▮▮▮▮ RTX 3090 カーネルと最適化処理
Q2 2026▮▮▮▮▮▯▯▯▯▯ Ryzen AI MAX+ 395 の最適化
Q2 2026▮▮▯▯▯▯▯▯▯▯ CPU と GPU の混合環境におけるレイテンシ最適化

引用方法 (Citation)

@software{lucebox_2026,
  title  = {Lucebox: Open LLM Inference, Rewritten by Hand for One Specific Chip at a Time},
  author = {Lucebox},
  url    = {https://github.com/Luce-Org/lucebox-hub},
  year   = {2026}
}

※各サブプロジェクトの詳細な引用情報は、それぞれの README ファイルに記載されています。

参考にしている研究・開発者

  • Hazy Research: メガカーネルのアイデアと「ワットあたりの知能」(intelligence-per-watt) という評価手法。
  • z-lab/DFlash (Wang ら, 2026): ブロック拡散型の Speculative Decoding アルゴリズム。我々は公開されている Qwen3.5-27B-DFlash ドラフトウェイトをそのまま利用しています。
  • DDTree (Ringel & Romano, 2026): DFlash 27B がチェーン型 Speculative Decoding に対して 3.5 倍の高速化を実現するために使用している、ツリー構造による検証手法 (
    liranringel/ddtree
    )。
  • AlpinDale/qwen_megakernelInfatoshi/MegaQwen: 融合された Qwen カーネルに関する先行研究 (prior art)。

コミュニティ


MIT ライセンス | Lucebox.com

同じ日のほかのニュース

一覧に戻る →

2026/04/21 5:39

ジョン・テルナス氏、次期アップル CEO に就任

## Japanese Translation: 欠落している要素は、キーポイントリストからの具体的なデータポイントおよび製品の詳細を組み込んだ改良されたバージョンを採用する価値があり、ソース資料の包括的な反映を確保するためには十分な重大さがあります。 **改善されたサマリー:** Apple は、John Ternus が 2026 年 9 月 1 日に CEO に就任し、Tim Cook を後継することを含む大規模なリーダーシップ移行を公式に確認しました。取締役会はこの計画を全会一致で承認し、Cook が 2011 年に CEO に就任してから歴史的な業績を認識しています。彼は社員の市場価値を約 3500 億ドルから 4 兆ドルへと成長させ、収益を 2011 会計年度の 1080 億ドルから 2025 会計年度の 4160 億ドル以上までほぼ四倍に拡大しました。Cook は日常業務から退き、執行議長として務める一方で、夏の間は CEO を辞任せず、円滑な引き継ぎを確保します。彼の指導の下、Apple は Apple Watch、AirPods、Vision Pro という象徴的な新カテゴリーを導入し、自社設計のシリコンに移行し、200 カ国以上および地域に店舗を持つ 500 店以上の小売網を拡大しました。また、チームメンバーが 100,000 名以上増加し、現在稼働している 25 億台超のデバイスベースを支援しています。 John Ternus は、2001 年に製品設計チームの一員として Apple に加入し、2021 年にハードウェアエンジニアリング担当副社長となり、2026 年 9 月 1 日に CEO の役職を引き継ぎ、取締役会に就任します。彼の指導の下、MacBook Neo、iPhone Air、フルモデルの iPhone 17 シリーズ、アクティブノイズキャンセレーション搭載のアバンスド AirPods、Apple Watch Ultra 3 に用いられた再生アルミニウムや 3D プリンティング钛など、重要なハードウェア革新を監督しました。さらに、Arthur Levinson は 2026 年 9 月 1 日に非執行会長からリードインディペンデントダイレクターへ移行します。この戦略的なシフトは、Apple の長期的なビジョンを固めるものであり、ハードウェア革新と持続可能性への深いコミットメントを持つ内部人材へのリーダーシップの引継ぎによって実現され、新鮮でありながら親しみのあるリーダーシップの下での継続性を確保します。

2026/04/21 6:32

「楽しさと利益のためのジュージ・メガマージ」

## 日本語訳: 記事は、JUJUTSU で導入される簡素化されたバージョン管理ワークフロー「megamerge」について紹介しています。これは、オクトパス合併(3 つ以上の親を持つ合併)を用いて、複数の開発ブランチを単一のローカルのベースコミットに統合します。不安定なブランチの先頭に直接作業を行う代わりに、開発者は関連する上流ブランチ(機能追加、バグ修正、設定など)を親とする空の megamerge コミットを作成し、作業コピーが常にすべての変更を統合してコンパイル可能になるように確保するとともに、タスクを変更する際に予期せぬリモート合併競合を排除します。 megamerge を開始するには、`jj new x y z` を実行した後に `jj commit --message "megamerge"` を実行し、指定されたブランチを親とする空のコミットを作成します。すべての書き込みは、このベース(WIP ス tack)の上で実施され、megamerge がローカルに留まることで安定性を保ちます。個々の機能ブランチは遠隔リポジトリへ通常通り公開し続けますが、megamerge 自体はプッシュされません。 `jj absorb` を用いて上流の変更を自動的に統合するワークフローでは、約 90% の更新を後続的可変コミットに圧縮して同定します。新しい作業で独自のコミットが必要になる場合は、bookmark を更新しながら WIP を megamerge の下に移動するために `jj rebase --revision y --after x --before megamerge` を使用します。並列ス tack の管理には revset アリヤス(例: `"closest_merge(to)" = "heads(::to & merges())"`)および `stack` コマンドを用い、`stage = ["stack", "closest_merge(@).. ~ empty()"]` というようにのアリヤスで一度にステージリングし、その後 `jj stage` を実行します。 メインブランチ(`trunk()`)との同期を維持するには `jj rebase --onto trunk()` を使用でき、これは自分が所有するコミットに対して動作し、他者によるブランチは保護されます。Mutable コミットのみを安全に trunk へ rebase するための場合は、`restack = ["rebase", "--onto", "trunk()", "--source", "roots(trunk()..) & mutable()"]` というようなアリヤスを使用します。全体として、このアプローチは合併による面倒を大幅に削減し、新しい作業が堅牢な統合された基盤の上に自然と構築されるような円滑で協力的なサイクルをサポートします。

2026/04/21 4:51

『Soul Player C64 ―1MHz のコモドール64で動作する本物のトランスフォーマー』

## Japanese Translation: Soul Player C64 は、未修正の Commodore 64 でネイティブ速度(約 1MHz)で完全動作する縮小版变压器モデルを実行し、画期的な成果を達成しました。このシステムは、2 レイヤーのdecoder-only アーキテクチャを実装するため、手書きの 6502/6510 アセンブリ言語を使用しており、リアルなマルチヘッド因果的自己注意機構、RMSNorm、および ソフトマックス(128 エントリのルックアップテーブル経由で)を備えており、すべてが 1 つのフロッピーディスクに収まります。主要な技術的突破口としては、6502 プロセッサの精度限界を克服しつつ有意義な重みを保つために、標準の 17 ビットではなく 14 ビットのみで注意スコアをシフトすることなどが挙げられます。 ChatGPT のような現代の巨人と並んでモデルは動作しますが、約 25,000 int8 パラメータという厳格な制約下にあります:単語書式は 128 トークン(大文字を未知として扱う)、埋め込み次元は 32、最大トレーニングコンテキストウィンドウは 20 トークンです。推論にはトークンあたり約 60 秒かかりつつも、レガシーハードウェアでのローカル機械学習の探求へのアクセシブルなパスを提供します。 このプロジェクトには、ユーザーがカスタムモデルをトレーニングするための包括的なツールが含まれています:`train.py` は Quantization-Aware Training (QAT)、FakeQuantI8、およびラベルスムージングをサポートし、重みをコンパクトなバイナリ形式にエクスポートします;`build.py` は C64 バイナリをコンパイルします;`test.py` はほぼ 90 の厳密な検証テストにより安定性を確保します。リリースパッケージにはソースファイルと即座に実行可能なビルドの両方が含まれており、高度な AI コンセプトがハードウェア変更なしでビンテージシステム上で機能することを示しています。