Z-Image: Powerful and highly efficient image generation model with 6B parameters

2025/11/30 20:36

Z-Image: Powerful and highly efficient image generation model with 6B parameters

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
アリババの新しいZ‑Imageファミリーは、6 Bパラメータを持つ画像生成モデルで、TurboBaseEdit の3種類がリリースされています。
Z‑Image‑Turbo は ≤8 Neural Function Evaluations (NFEs) に蒸留されており、16 GB 未満のVRAMを搭載した H800 GPU 上でサブセカンド推論が可能です。フォトリアリズム、英語と中国語の二言語テキストレンダリング、および指示遵守に優れています。
Base モデルは蒸留されていない基盤チェックポイントで、公開時にはコミュニティによるファインチューニングが可能になります(現在はまだ公開されていません)。
Edit バリアントは自然言語プロンプトに応じた画像編集タスク用にファインチューニングされており、創造的な画像から画像への変換を実現します。
• アーキテクチャとして、Z‑Image はテキスト・視覚意味トークン・VAE トークンを1つの拡散ストリームに結合する Scalable Single‑Stream DiT (S3‑DiT) をベースにしており、パラメータ効率を最大化しています。
• 性能は Alibaba AI Arena の Elo ベースの Human Preference テストで評価され、Turbo は主要なオープンソースモデルと同等またはそれ以上の結果を示しました。
• 蒸留は 2025 年 arXiv に掲載された Decoupled‑DMD(CFG 増幅と分布マッチングを分離)および DMDR(Decoupled‑DMD と RL を組み合わせて意味整合性と高周波詳細を実現)手法に依存しています。
• コミュニティ向けデプロイツールとしては、Cache‑DiT (DBCache, Context Parallelism, Tensor Parallelism)、LeMiCa(トレーニング不要のタイムステップ加速)、stable‑diffusion.cpp(低VRAM推論用)、および ComfyUI ZImageLatent(潜在空間操作用)が提供されています。
• モデルは Hugging Face と ModelScope で入手可能です:Turbo は既にリリース済み、Base および Edit チェックポイントは後日公開予定です。
• アリババの Z‑Image チームでは現在 Research Scientist、Engineer、および Intern を積極的に採用しています(お問い合わせ先: jingpeng.gp@alibaba-inc.com)。

本文

⚡️ Z‑Image – シングルストリーム拡散トランスフォーマーを採用した高効率画像生成基盤モデル


✨ 概要

Z‑Image は、6 B パラメータを持つ高性能画像生成モデルで、以下の3種類があります。

  • Z‑Image‑Turbo – 蒸留済み、8 NFE、H800 GPU でサブセカンドレイテンシ、<16 GB VRAM。フォトリアリスティックかつ双言語テキスト描画が可能。
  • Z‑Image‑Base – 蒸留されていない基盤モデル(コミュニティ向けファインチューニング用)。近日公開予定。
  • Z‑Image‑Edit – 画像編集に特化してファインチューニング済み。自然言語プロンプトでクリエイティブな画像対画像生成をサポート。

📥 モデルズー

モデルHugging FaceModelScope
Z‑Image‑Turbo
Z‑Image‑Base近日公開近日公開
Z‑Image‑Edit近日公開近日公開

🖼️ 実例

  • フォトリアリスティック品質 – 優れた美学と高い写実性を実現。
  • 正確な双言語テキスト描画 – 複雑な中国語・英語文字を精密にレンダリング。
  • プロンプト強化 & 推論 – Prompt Enhancer が推論の理解力を向上させます。
  • クリエイティブ画像編集 – バイリンガルの編集指示と柔軟な変換が可能。

🏗️ モデルアーキテクチャ

Z‑Image は Scalable Single‑Stream DiT (S3‑DiT) アーキテクチャを採用。
テキスト、視覚意味トークン、VAE 画像トークンをシーケンスレベルで結合し、単一の入力ストリームとして扱うことで、デュアルストリーム設計よりもパラメータ効率を最大化します。


📈 性能

Alibaba AI Arena の Elo ベース人間好み評価において、Z‑Image‑Turbo は主要モデルと比較して高い競争力を示し、オープンソースモデルの中で新たな最先端を樹立しています。
完全リーダーボードを見る


🚀 クイックスタート

1️⃣ PyTorch ネイティブ推論

# 仮想環境作成
python -m venv zimage-env
source zimage-env/bin/activate

# 依存パッケージインストール
pip install torch==2.5.0+cu118 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

2️⃣ Diffusers 推論

Z‑Image をサポートする最新版

diffusers
をソースからインストール:

pip install git+https://github.com/huggingface/diffusers

サンプルコード

import torch
from diffusers import ZImagePipeline

# パイプライン読み込み
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

# (任意)Flash Attention を有効化(サポートされていれば)
# pipe.transformer.set_attention_backend("flash")   # Flash‑Attention‑2
# pipe.transformer.set_attention_backend("_flash_3")  # Flash‑Attention‑3

# (任意)高速推論のためにモデルをコンパイル(初回は遅くなる)
# pipe.transformer.compile()

# (任意)CPU オフロードで GPU メモリ節約
# pipe.enable_model_cpu_offload()

prompt = (
    "Young Chinese woman in red Hanfu, intricate embroidery. "
    "Impeccable makeup, red floral forehead pattern. Elaborate high bun, "
    "golden phoenix headdress, red flowers, beads. Holds round folding fan "
    "with lady, trees, bird. Neon lightning‑bolt lamp (⚡️), bright yellow glow, "
    "above extended left palm. Soft‑lit outdoor night background, silhouetted "
    "tiered pagoda (西安大雁塔), blurred colorful distant lights."
)

image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9,  # 8 DiT フォワードに相当
    guidance_scale=0.0,     # Turbo モデルはガイダンス 0 を使用
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("example.png")

🔬 Decoupled‑DMD – Z‑Image の加速の秘訣

  • CFG Augmentation (CA) – 蒸留を主導するエンジン。
  • Distribution Matching (DM) – 安定性と品質を確保する正則化子。

これらを分離して最適化することで、少数ステップでの生成プロセスが向上します。


🤖 DMDR – DMD と強化学習の融合

蒸留後に RL を組み込むと、以下の相乗効果が得られます。

  • RL が DMD の性能を引き出す
  • DMD が RL を正則化する

結果として、セマンティック整合性・美的品質・構造的一貫性・高周波詳細の向上が実現します。


🎉 コミュニティ活動

プロジェクト内容
Cache‑DiTZ‑Image の推論高速化(DBC​ache、コンテキスト並列化、テンソル並列化)。
stable‑diffusion.cppCUDA/Vulkan で動作し、4 GB VRAM でも動く純粋 C++ 推論エンジン。
LeMiCaZ‑Image の学習不要タイムステップレベル高速化。
ComfyUI ZImageLatentZ‑Image 標準解像度に対応した簡易ラテントインターフェース。

📜 引用

ご利用いただく際は、以下の論文を引用してください。

@article{team2025zimage,
  title={Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer},
  author={Z-Image Team},
  journal={arXiv preprint arXiv:2511.22699},
  year={2025}
}

@article{liu2025decoupled,
  title={Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield},
  author={Dongyang Liu and Peng Gao and David Liu and Ruoyi Du and Zhen Li and Qilong Wu and Xin Jin and Sihan Cao and Shifeng Zhang and Hongsheng Li and Steven Hoi},
  journal={arXiv preprint arXiv:2511.22677},
  year={2025}
}

@article{jiang2025distribution,
  title={Distribution Matching Distillation Meets Reinforcement Learning},
  author={Jiang, Dengyang and Liu, Dongyang and Wang, Zanyi and Wu, Qilong and Jin, Xin and Liu, David and Li, Zhen and Wang, Mengmeng and Gao, Peng and Yang, Harry},
  journal={arXiv preprint arXiv:2511.13649},
  year={2025}
}

🤝 採用情報

基盤生成モデルとその応用に携わる研究科学者、エンジニア、インターンを積極的に募集しています。
ご興味のある方は jingpeng.gp@alibaba-inc.com までご連絡ください。

同じ日のほかのニュース

一覧に戻る →

2025/12/07 10:17

Using LLMs at Oxide

## Japanese Translation: ## 改訂要約 大型言語モデル(LLM)は、文書の高速解析、コード生成、テキスト作成などで強力なアシスタントとなりますが、人間の判断や責任を置き換えるべきではありません。LLM の強みには、長文の即時要約、コーディングエラーの検出、プローズ提案などがあります。しかし、これら同様にプライバシーリスク(アップロードされたデータでのトレーニングからオプトアウトする必要性)、過度な奉承的表現、クリシェが多い出力による真実感の低下、不安定なデバッグ支援なども伴います。実際の例では、ChatGPT、Claude、Gemini へのデータ共有ポリシーで「全員のモデル改善」を無効化するようユーザーに求められ、Oxide は強力なライターを採用し完全な LLM コンテンツ作成を避ける方針を取っています。ソフトウェアチームは LLM の支援を受けながらも、人間によるコードレビューに依存しています。今後、エンジニアは迅速な反復のために LLM を使用し続けますが、責任と真実感を維持するためにピアレビュー前に厳格な自己レビューを強制します。企業は明確なプライバシー設定とガイドラインを設置し、ライターは独自のスタイルを保持し、開発者は機械出力を検証するプロセスが必要です。この効率向上と人間監督のバランスこそが、将来の業界標準を決定づけるでしょう。

2025/12/07 12:03

Z2 – Lithographically fabricated IC in a garage fab

## Japanese Translation: > 著者は、DIYで低コストのポリシリコンゲートプロセスを用いてIntelの最初のプロセッサ技術を模倣し、2.4 mm² のダイに10×10配列(合計100トランジスタ)を製造しました。以前のZ1テストチップ(6トランジスタ)に続き、新しいZ2チップは完全な電気特性評価が可能です:Vth ≈ 1.1 V、Cgs < 0.9 pF、立ち上がり/落下時間 < 10 ns、オン/オフ比 ≈ 4.3 × 10⁶、漏れ電流 932 pA(Vds = 2.5 V)(環境光下では約100倍高い)。これらの数値は、2.5–3.3 V のロジックレベルで信頼性ある動作を示しています。 > 製造は自己整列型「ゲートファースト」プロセスであり、イオン注入を省略し、水・アルコール・アセトン・リン酸・フォトレジスト・デベロッパー・N‑タイプドーパント・HF/CF₄/CHF₃ RIE・HNO₃ などの一般的な実験室化学物質のみを使用し、クリーンルームは不要です。約10 nm のSiO₂ゲート酸化膜と300 nm のポリシリコンを有する25 × 200 mm ウェーハを約45ドルで購入しました。製造には15チップ(1,500トランジスタ)が関与し、少なくとも1チップは完全に機能し、2チップが「ほぼ機能」しているため、推定トランジスタ歩留まりは80 %です。最も頻繁な欠陥はソース/ドレインがバルクシリコンと短絡していることです。 > 今後の作業にはテスト自動化、歩留まり向上、およびオペアンプやメモリアレイなどより複雑なデジタル/アナログ回路への技術拡張が含まれます。成功すれば、このDIY手法はホビイストや小規模ラボの参入障壁を低減し、ニッチなイノベーションを促進し、少量プロトタイプ用に商業製造所への依存度を削減する可能性があります。

2025/12/07 6:55

Screenshots from developers: 2002 vs. 2015 (2015)

## Japanese Translation: 記事は、グラフィカルインターフェイスの台頭にもかかわらず、Unix/Linux ユーザーが10年以上にわたり主にターミナル中心のワークフローを維持していることを示しています。2002 年初頭の最小限デスクトップ(xterm、fvwm、Gnome 2)のスクリーンショットと 2015 年までのユーザー報告はほぼ変化がないことを確認しています:多くの人がまだ軽量ウィンドウマネージャやコンソールエディタ(Emacs や Vim)に依存しています。ある回答者は、fvwm を使用していた FreeBSD から Linux(Lubuntu)と LXDE に移行しつつもコマンドライン中心を維持しました。彼は Firefox、Gimp、Wireshark、VLC などの GUI ツールを追加しましたが、シェル、Perl、および C でスクリプトを書き続け、mutt を使ってローカルでメールを処理しています。別の OS X ユーザーは、Mail.app、Safari、Calendar、Slack の 6 つの仮想デスクトップと専用ターミナルデスクトップを運用しています。数人の参加者はハードウェアアップグレード(例:スマートフォンが初期の Pyramid 90x を上回る)について言及しましたが、classic Unix プリミティブ(`open`、`close`、`fork`)に満足しているようです。 記事ではまた、Pine から Thunderbird または mutt へのメールクライアントの進化と、職務変更後の VirtualBox、LibreOffice、および Wine を介した Windows 互換性についても追跡しています。Hacker News と Reddit(/r/programming、/r/linux)のコミュニティディスカッションはさらに文脈を提供します。 総じて、グラフィカルデスクトップが進化しているにもかかわらず、ターミナル中心のワークフローは継続しています。legacy ウィンドウマネージャ(fvwm)と軽量環境(LXDE、LXQt)は、新しい GUI と共存し続けています。この持続的なミニマリズムは、ソフトウェア開発者がコマンドライン機能を前面に押し出し、ユーザーコミュニティおよび産業界の両方で継続的に求められるターミナルフレンドリーなツールへの需要を満たすべきだという示唆です。

Z-Image: Powerful and highly efficient image generation model with 6B parameters | そっか~ニュース