DiffusionGemma:テキスト生成が 4 倍高速化

2026/06/11 1:09

DiffusionGemma:テキスト生成が 4 倍高速化

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

DiffusionGemma は、Google によって Apache 2.0 ライセンスの下で公開された実験的な 26B パラメータを持つエキスパートの混合(MoE)オープンモデルです。通常の「タイプライター」のようにトークンを逐次処理する標準的な自己回帰モデルとは異なり、DiffusionGemma は並列処理を使用してテキストブロック全体を同時に生成することで、最高で約 4 倍の速度を実現しています。18GB の VRAM を備えたコンシューマー GPU では 1 秒間に 700 トokens 以上、H100 ハードウェアでは 1 秒間に 1000 トokens 超を達成します。この効率性は無視できないものですが、推論時には只有 3.8B パラメータが有効にされ、計算のボトルネックがメモリ帯域幅から演算へシフトすることで、モデルアーキテクチャを実質的に「タイプライター」から「印刷機」へとアップグレードしていることを意味します。本モデルは双方向注意機構とインテリジェントな自己修正を採用し、ブロック内の出力を一度に精緻化するため、コード編集や埋め込み、スudoku の解法等の複雑な非線形タスクにおいて優れたパフォーマンスを発揮します。また、NVIDIA NVFP4 アクセラレーターのネイティブサポートを備え、ローカルおよび低並行度推論用に最適化されていますが、従来の LLM と比較して高スループットなクラウドサービング環境では得られる利益は減少する可能性があります。開発者は Hugging Face からモデルの重みにアクセスでき(例:Unsloth を使用したファインチューニング)、MLX、vLLM、Hugging Face Transformers、llama.cpp、NVIDIA NIM など複数のエコシステムに展開することができます。

本文

DiffusionGemma:最大 4 倍高速化を実現する革新的なテキスト拡散モデル

当社の最新オープン実験モデル**「DiffusionGemma」は、専用 GPU において最大 4 倍の高速推論**を実現し、速度を要するインタラクティブなローカルワークフローへの新たな道を開きました。

本記事では、SiBastian Frémontier-Hugh(研究科学者)による導入内容、技術的な優位性、および利用方法について解説します。


1. モデル概要と基本理念

  • ライセンス: Apache 2.0
  • 構造: 26B パラメータ規模の専門家混合(MoE)モデル
  • 基本概念: 従来のオートリグレッシブ LLM と異なり、テキストブロック全体を並列に生成することで処理速度を最大化します。
  • 開発背景: Gemma 4 ファミリーの実績と Gemini Diffusion 研究の知見を継承し、新たな拡散ヘッド(diffusion head)を統合しています。

アウトプットの方向性

モデルタイプ特徴・用途
Gemma 4 (標準)高品質なプロダクション出力が求められている場合
(例:正確性の高い生成など)
DiffusionGemma速度を最優先とするインタラクティブワークフロー向け
(例:内線編集、迅速な反復試行、非線形な構造生成)

2. 開発者への価値と主要優位性

リアルタイム AI アプリ開発における「レイテンシボトルネック」を解消し、以下の 4 つの利点を提供します。

* 驚くべき高速推論

*   ボトルネックを「メモリ帯域幅」から「計算リソース」へシフト。
*   **専用 GPU でのトークン出力速度**:
    *   NVIDIA H100 シングル GPU:**1,000 トークン/秒超**
    *   NVIDIA GeForce RTX 5090:**700 トークン/秒超**

* アクセスしやすいハードウェア要件

*   総パラメータ数 26B の MoE モデルながら、推論時は**わずか 3.8B のパラメータのみを活性化**。
*   量子化(quantization)により、高端な汎用 GPU においても**18GB のビデオメモリ限界内**で快適動作。

* 双方向アテンション機構

*   各フォワードパスで**256 トークンを並列処理**。
*   生成される全てのトークンが互いの文脈を把握可能。
*   **非線形ドメイン(コード補完、アミノ酸配列、数学的グラフなど)での利点が大きい**。

* 知的自己修正機能

*   テキストブロック全体を一度に評価して出力を反復的に洗練させる。
*   ミスをリアルタイムで自動訂正可能。

⚠️ 推奨事項: DiffusionGemma は並列生成により速度は向上しますが、標準的な Gemma 4 モデルに比べて全体的な出力品質は低くなる可能性があります。最高品質が必須の用途では標準モデルのご採用をお勧めします。


3. 実用ケーススタディ:数独解読

特定のタスクにおける性能を向上させるため、ファインチューニング(微調整)が可能です。

  • 事例: Unslothでファインチューニングされた DiffusionGemma を使用した「数独解読」。
  • 背景: 標準的なオートリグレッシブモデルは、「各トークンの生成が未来のトークンに依存」するため苦手とするタスクです。
  • 成果: DiffusionGemma の双方向アテンション機構により、この処理を大幅に容易化し、数独を解く様子を実演(Hugging Face デモ)で確認できます。

4. なぜテキスト生成に「拡散(ディフュージョン)」技術を導入するのか?

長年 AI 研究の課題でしたが、ハードウェア利用方法を根本転換することで解決しました。

従来型モデル vs DiffusionGemma

比較項目従来型モデル (オートリグレッシブ)DiffusionGemma
動作イメージタイプライター
左から右へ順序立てて生成
巨大な印刷機
ブロック全体を同時に捺印
処理単位1 トークンずつシーケンシャルに256 トークン(段落)ごとに並列処理
ローカル環境での課題一字一句の待ち時間が発生し GPU が過剰 idle非効率性を排除しハードウェア能力を最大化
  • クラウド環境: 高 QPS(並列処理数が多い)の場合、従来のオートリグレッシブモデルの方が計算リソース効率が良い可能性があります。
  • ローカル・低並列環境: DiffusionGemma のスループット優位性が最も発揮されます。

テキスト拡散の仕組み

AI イメージ生成と同じ原理をテキストに適用し、「ノイズ(ランダムなプレースホルダー)」から「高品質出力」へと反復的に精細化します。

  1. キャンバス: ランダムなプレースホルダートークンで始動。
  2. 反復的な洗練: ループ処理により正しいトークンを確定、残部分を文脈手がかりで精細化。
  3. 最終的な仕上げ: テキストが高品質に収束。

これにより、複雑なマークダウンの完全な閉じ合わせや、ほぼリアルタイムなコード生成・レンダリングなどが可能になります。


5. 今日から始めよう:入手と利用方法

* ウェイトのダウンロード

*   Hugging Face で無料で入手可能(Apache 2.0 ライセンス)。
*   [Hugging Face リポジトリ](https://huggingface.co)よりアクセスできます。

* 詳細ガイド・学習資源

*   **「DiffusionGemma 開発者ガイド」**: 詳細な実装情報。
*   **「内部機構を可視化:ビジュアルガイド」**: メカニズムの深掘り。

* 開発環境との連携

*   **フレームワーク**: MLX, vLLM(Red Hat サポートあり), Hugging Face Transformers。
*   **ファインチューニングツール**:
    *   Hackable Diffusion (JAX)
    *   Unsloth
    *   NVIDIA NeMo
    *   *(予定中)* llama.cpp 公式サポート導入

* 最適化されたパフォーマンス

*   NVIDIA と連携したフルスタック最適化を実施。
*   **対応ハードウェア**:
    *   汎用 GPU: GeForce RTX 5090, 4090(量子化対応)
    *   エンタープライズ: Hopper, Blackwell 世代(AVFP4 カーネル活用)
    *   システム: NVIDIA DGX Spark, DGX Station など。
*   **精度維持**: AVFP4(4 ビット浮動小数点)ネイティブサポートにより、**計算スループットの加速と極めて少ない精度低下**を実現。

* 実行方法

*   ローカル: デスクトップ上の専用 GPU 環境。
*   クラウド: Gemini Enterprise Agent Platform Model Garden や NVIDIA NIM を経由して利用可能。

同じ日のほかのニュース

一覧に戻る →

2026/06/11 3:54

ΠFS

## Japanese Translation: πfs は、物理的なストレージを節約するためにユーザーデータを π(円周率)の無限数列に埋め込むことを目的とした実験的なファイルシステムを導入する。この革新的なアプローチは、「π が『正規数』である」という数学的仮説に基づいており、これは π の数列の中にあらゆる可能な有限の情報シーケンスがどこかに含まれていることを意味する。従来のドライブ上にファイルを保存するのではなく、システムはこの定数内に隠された任意のファイルコンテンツを特定するために特定のインデックスを計算する。この方法は、既存の数学的定数を新規にストレージスペースを生成することなく使用することで、歴史的なデータ保存の制限と潜在的な著作権問題を解決する。現在では遅いプロトタイプとして動作しているが、ハードウェアが進歩するにつれて並列処理、算術符号化、クラウドベースの計算などの技術を通じて、将来的には劇的な速度向上が約束されている。最終的に、πfs は極めてストレージ制約の高い環境向けにユニークなソリューションを提供し、場所に関するメタデータが失われても実際のデータは π そのものの不変の数列内に永久に埋め込まれていることを保証する。

2026/06/11 1:42

Anthropic の新言語モデル「Fable」に対する規制策に対し、サイバーセキュリティ研究者たちが不満を示している

## 日本語訳: 火曜日に、Anthropic はセキュリティ専門のモデル「Mythos」の公開版かつ制限付き版である「Fable」を、プロジェクト・グラスウィングベータ(2025年4月限定)から15カ国に跨る数百家の組織へと拡大されたアクセスプログラムを通じてリリースしました。研究者によると、マルウェアの開発やソフトウェアへの侵害、生物学的兵器の作成といった悪用を防ぐことを目的とした Fable のガードレール(制限措置)は過度に積極的であり、ブログ記事の閲覧や標準的なコードレビューなど無害なタスクを含むサイバー関連活動と間接的に関連する正当なリクエストさえブロックします。トリガーされると、モデルは「セキュリティまたは生物学トピックに関するメッセージが安全性の措置によってフラグされた」というメッセージと共に会話を一時停止し、そのプロンプトに対しては Claude Opus 4.8 にフォールバックします。サイバーセキュリティ専門家であるマット・シュイチェ(Tolmo)は、Fable がキーワードベースの制限によりソフトウェアエンジニアリングタスクを頻繁に「安全なコードを書く」という書き換えに変換していると指摘し、「安全なコードを書く」や「コードレビュー」といったリクエストを誤って解釈していると述べました。業界アナリストからはこうしたキーワードフィルタリングが時間経過とともに改善されるとの見方がありますが、IBM X-Force のヴァレンティナ・パルミオッティ(Chompie)ら専門家は、現在の過度に制限的な展開を批判しています。Anthropic はこれらの懸念に対して直ちにコメントしていません。関連として、Anthropic もサイバーセキュリティ専門家に対して、Claude を使用する際にかかる制限を少なくするための「Cyber Verification Program」への別途申請を義務付けており、これは OpenAI の「Trusted Access for Cyber」に類似しています。

2026/06/11 2:30

JPL が 13 歳のキュリオシティ探査機をどう科学活動に導いているか

## 日本語翻訳: # ルール - 元の意味を正確に保ってください(追加も省略も行わないでください)。 - ドキュメントの構造(見出し、箇条書きなど)を維持してください。 - 技術用語は正確に扱いください(API、LLM、zero-trust は自然な日本語が存在しない限りそのままにしてください)。 - トーンと確信度を保ってください。 - まとめたり、説明したり、再書き換えを行わないでください — ただ翻訳のみ行ってください。 ## 翻訳すべきテキスト: # ルール - 元の意味を正確に保ってください(追加も省略も行わないでください)。 - ドキュメントの構造(見出し、箇条書きなど)を維持してください。 - 技術用語は正確に扱いください(API、LLM、zero-trust は自然な日本語が存在しない限りそのままにしてください)。 - トーンと確信度を保ってください。 - まとめたり、説明したり、再書き換えを行わないでください — ただ翻訳のみ行ってください。 # 出力形式 ## 日本語翻訳: (ここに日本語の翻訳を書きます) ## 翻訳すべきテキスト: (必要に応じて;そうでない場合は元のテキストを繰り返します)