
2025/12/19 12:24
Qwen-Image-Layered: transparency and layer aware open diffusion model
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
Qwen‑Image‑Layered は、単一の RGB 画像を複数の意味的に分離された RGBA レイヤーに分解するエンドツーエンド拡散モデルであり、各レイヤーを他のレイヤーに影響を与えずに独立して編集できるようにします。この手法では、RGB と RGBA 画像の潜在表現を統一する RGBA‑VAE を導入し、可変数の画像レイヤーを処理可能な Variable Layers Decomposition MMDiT (VLD‑MMDiT) アーキテクチャを採用しています。マルチステージトレーニング戦略により、事前学習済みの画像生成モデルをマルチレイヤーデコーダーへ適応させます。高品質なマルチレイヤートレーニングデータが不足している問題に対処するため、著者らは Photoshop ドキュメント(PSD)からマルチレイヤー画像を抽出し注釈付けするパイプラインを構築しました。実験結果では、Qwen‑Image‑Layered が既存手法と比べて分解品質と一貫性の面で大幅に優れていることが示されました。コードとモデルは GitHub(https://github.com/QwenLM/Qwen-Image-Layered)で公開され、論文は arXiv(abs/2512.15603)で閲覧でき、PDF ダウンロードリンクも提供されています。
本文
著者
要旨
Qwen‑Image‑Layered は拡散モデルを用いて画像を意味的に分離された RGBA レイヤーへ分解し、各レイヤーを独立して編集できるようにすることで、分解品質と一貫性を向上させます。
近年の視覚生成モデルは、ラスタ画像がすべて単一キャンバスに融合されるため、画像編集時に一貫性を保つことが難しいという課題があります。一方でプロフェッショナルなデザインツールではレイヤー表現を採用しており、個別のレイヤーを編集しながら全体の整合性を維持できます。これに着想され、本研究では Qwen‑Image‑Layered を提案します。これはエンド・トゥ・エンドで拡散モデルを用い、単一 RGB 画像を複数の意味的に分離された RGBA レイヤーへと分解し、各レイヤーを他の内容に影響されずに独立して操作できるようにします。
可変長分解をサポートするため、以下の三つの主要コンポーネントを導入しました:
- RGBA‑VAE – RGB と RGBA 画像の潜在表現を統一するモデル。
- VLD‑MMDiT(Variable Layers Decomposition MMDiT)– 可変数レイヤー分解に対応したアーキテクチャ。
- マルチステージ学習戦略 – 事前学習済み画像生成モデルを多層画像分解器へと適応させる手法。
さらに、高品質な多層訓練データが不足している問題に対処するため、Photoshop ドキュメント(PSD)から多層画像を抽出・注釈付けするパイプラインを構築しました。実験結果は、本手法が既存のアプローチを大幅に上回る分解品質を実現し、一貫性ある画像編集の新たなパラダイムを確立できることを示しています。コードとモデルは以下で公開しています:
https://github.com/QwenLM/Qwen-Image-Layered。
追加リソース
引用・リンク情報
-
本論文を引用しているモデル – 2
- Qwen/Qwen‑Image‑Layered(画像→テキスト→画像、約18時間前に更新、42 スター、155 フォーク)
- Runware/Qwen‑Image‑Layered(画像→テキスト→画像、約8時間前に更新)
-
本論文を引用しているデータセット – 0
データセットの README.md に
を記載してリンクしてください。arxiv.org/abs/2512.15603 -
本論文を引用している Spaces – 3
-
本論文を含むコレクション – 3