Japanese Translation:

DiffusionGemma は、Google によって Apache 2.0 ライセンスの下で公開された実験的な 26B パラメータを持つエキスパートの混合（MoE）オープンモデルです。通常の「タイプライター」のようにトークンを逐次処理する標準的な自己回帰モデルとは異なり、DiffusionGemma は並列処理を使用してテキストブロック全体を同時に生成することで、最高で約 4 倍の速度を実現しています。18GB の VRAM を備えたコンシューマー GPU では 1 秒間に 700 トokens 以上、H100 ハードウェアでは 1 秒間に 1000 トokens 超を達成します。この効率性は無視できないものですが、推論時には只有 3.8B パラメータが有効にされ、計算のボトルネックがメモリ帯域幅から演算へシフトすることで、モデルアーキテクチャを実質的に「タイプライター」から「印刷機」へとアップグレードしていることを意味します。本モデルは双方向注意機構とインテリジェントな自己修正を採用し、ブロック内の出力を一度に精緻化するため、コード編集や埋め込み、スudoku の解法等の複雑な非線形タスクにおいて優れたパフォーマンスを発揮します。また、NVIDIA NVFP4 アクセラレーターのネイティブサポートを備え、ローカルおよび低並行度推論用に最適化されていますが、従来の LLM と比較して高スループットなクラウドサービング環境では得られる利益は減少する可能性があります。開発者は Hugging Face からモデルの重みにアクセスでき（例：Unsloth を使用したファインチューニング）、MLX、vLLM、Hugging Face Transformers、llama.cpp、NVIDIA NIM など複数のエコシステムに展開することができます。

DiffusionGemma：最大 4 倍高速化を実現する革新的なテキスト拡散モデル

当社の最新オープン実験モデル**「DiffusionGemma」は、専用 GPU において最大 4 倍の高速推論**を実現し、速度を要するインタラクティブなローカルワークフローへの新たな道を開きました。

本記事では、SiBastian Frémontier-Hugh（研究科学者）による導入内容、技術的な優位性、および利用方法について解説します。

1. モデル概要と基本理念

ライセンス: Apache 2.0
構造: 26B パラメータ規模の専門家混合（MoE）モデル
基本概念: 従来のオートリグレッシブ LLM と異なり、テキストブロック全体を並列に生成することで処理速度を最大化します。
開発背景: Gemma 4 ファミリーの実績と Gemini Diffusion 研究の知見を継承し、新たな拡散ヘッド（diffusion head）を統合しています。

アウトプットの方向性

モデルタイプ	特徴・用途
Gemma 4 (標準)	高品質なプロダクション出力が求められている場合（例：正確性の高い生成など）
DiffusionGemma	速度を最優先とするインタラクティブワークフロー向け（例：内線編集、迅速な反復試行、非線形な構造生成）

2. 開発者への価値と主要優位性

リアルタイム AI アプリ開発における「レイテンシボトルネック」を解消し、以下の 4 つの利点を提供します。

* 驚くべき高速推論

*   ボトルネックを「メモリ帯域幅」から「計算リソース」へシフト。
*   **専用 GPU でのトークン出力速度**:
    *   NVIDIA H100 シングル GPU:**1,000 トークン/秒超**
    *   NVIDIA GeForce RTX 5090:**700 トークン/秒超**

* アクセスしやすいハードウェア要件

*   総パラメータ数 26B の MoE モデルながら、推論時は**わずか 3.8B のパラメータのみを活性化**。
*   量子化（quantization）により、高端な汎用 GPU においても**18GB のビデオメモリ限界内**で快適動作。

* 双方向アテンション機構

*   各フォワードパスで**256 トークンを並列処理**。
*   生成される全てのトークンが互いの文脈を把握可能。
*   **非線形ドメイン（コード補完、アミノ酸配列、数学的グラフなど）での利点が大きい**。

* 知的自己修正機能

*   テキストブロック全体を一度に評価して出力を反復的に洗練させる。
*   ミスをリアルタイムで自動訂正可能。

⚠️ 推奨事項: DiffusionGemma は並列生成により速度は向上しますが、標準的な Gemma 4 モデルに比べて全体的な出力品質は低くなる可能性があります。最高品質が必須の用途では標準モデルのご採用をお勧めします。

3. 実用ケーススタディ：数独解読

特定のタスクにおける性能を向上させるため、ファインチューニング（微調整）が可能です。

事例: Unslothでファインチューニングされた DiffusionGemma を使用した「数独解読」。
背景: 標準的なオートリグレッシブモデルは、「各トークンの生成が未来のトークンに依存」するため苦手とするタスクです。
成果: DiffusionGemma の双方向アテンション機構により、この処理を大幅に容易化し、数独を解く様子を実演（Hugging Face デモ）で確認できます。

4. なぜテキスト生成に「拡散（ディフュージョン）」技術を導入するのか？

長年 AI 研究の課題でしたが、ハードウェア利用方法を根本転換することで解決しました。

従来型モデル vs DiffusionGemma

比較項目	従来型モデル (オートリグレッシブ)	DiffusionGemma
動作イメージ	タイプライター左から右へ順序立てて生成	巨大な印刷機ブロック全体を同時に捺印
処理単位	1 トークンずつシーケンシャルに	256 トークン（段落）ごとに並列処理
ローカル環境での課題	一字一句の待ち時間が発生し GPU が過剰 idle	非効率性を排除しハードウェア能力を最大化

クラウド環境: 高 QPS（並列処理数が多い）の場合、従来のオートリグレッシブモデルの方が計算リソース効率が良い可能性があります。
ローカル・低並列環境: DiffusionGemma のスループット優位性が最も発揮されます。

テキスト拡散の仕組み

AI イメージ生成と同じ原理をテキストに適用し、「ノイズ（ランダムなプレースホルダー）」から「高品質出力」へと反復的に精細化します。

キャンバス: ランダムなプレースホルダートークンで始動。
反復的な洗練: ループ処理により正しいトークンを確定、残部分を文脈手がかりで精細化。
最終的な仕上げ: テキストが高品質に収束。

これにより、複雑なマークダウンの完全な閉じ合わせや、ほぼリアルタイムなコード生成・レンダリングなどが可能になります。

5. 今日から始めよう：入手と利用方法

* ウェイトのダウンロード

*   Hugging Face で無料で入手可能（Apache 2.0 ライセンス）。
*   [Hugging Face リポジトリ](https://huggingface.co)よりアクセスできます。

* 詳細ガイド・学習資源

*   **「DiffusionGemma 開発者ガイド」**: 詳細な実装情報。
*   **「内部機構を可視化：ビジュアルガイド」**: メカニズムの深掘り。

* 開発環境との連携

*   **フレームワーク**: MLX, vLLM（Red Hat サポートあり）, Hugging Face Transformers。
*   **ファインチューニングツール**:
    *   Hackable Diffusion (JAX)
    *   Unsloth
    *   NVIDIA NeMo
    *   *(予定中)* llama.cpp 公式サポート導入

* 最適化されたパフォーマンス

*   NVIDIA と連携したフルスタック最適化を実施。
*   **対応ハードウェア**:
    *   汎用 GPU: GeForce RTX 5090, 4090（量子化対応）
    *   エンタープライズ: Hopper, Blackwell 世代（AVFP4 カーネル活用）
    *   システム: NVIDIA DGX Spark, DGX Station など。
*   **精度維持**: AVFP4（4 ビット浮動小数点）ネイティブサポートにより、**計算スループットの加速と極めて少ない精度低下**を実現。

* 実行方法

*   ローカル: デスクトップ上の専用 GPU 環境。
*   クラウド: Gemini Enterprise Agent Platform Model Garden や NVIDIA NIM を経由して利用可能。

DiffusionGemma：テキスト生成が 4 倍高速化