Qwen-Image-Layered: transparency and layer aware open diffusion model

2025/12/19 12:24

Qwen-Image-Layered: transparency and layer aware open diffusion model

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:
Qwen‑Image‑Layered は、単一の RGB 画像を複数の意味的に分離された RGBA レイヤーに分解するエンドツーエンド拡散モデルであり、各レイヤーを他のレイヤーに影響を与えずに独立して編集できるようにします。この手法では、RGB と RGBA 画像の潜在表現を統一する RGBA‑VAE を導入し、可変数の画像レイヤーを処理可能な Variable Layers Decomposition MMDiT (VLD‑MMDiT) アーキテクチャを採用しています。マルチステージトレーニング戦略により、事前学習済みの画像生成モデルをマルチレイヤーデコーダーへ適応させます。高品質なマルチレイヤートレーニングデータが不足している問題に対処するため、著者らは Photoshop ドキュメント(PSD)からマルチレイヤー画像を抽出し注釈付けするパイプラインを構築しました。実験結果では、Qwen‑Image‑Layered が既存手法と比べて分解品質と一貫性の面で大幅に優れていることが示されました。コードとモデルは GitHub(https://github.com/QwenLM/Qwen-Image-Layered)で公開され、論文は arXiv(abs/2512.15603)で閲覧でき、PDF ダウンロードリンクも提供されています。

本文

著者


要旨

Qwen‑Image‑Layered は拡散モデルを用いて画像を意味的に分離された RGBA レイヤーへ分解し、各レイヤーを独立して編集できるようにすることで、分解品質と一貫性を向上させます。

近年の視覚生成モデルは、ラスタ画像がすべて単一キャンバスに融合されるため、画像編集時に一貫性を保つことが難しいという課題があります。一方でプロフェッショナルなデザインツールではレイヤー表現を採用しており、個別のレイヤーを編集しながら全体の整合性を維持できます。これに着想され、本研究では Qwen‑Image‑Layered を提案します。これはエンド・トゥ・エンドで拡散モデルを用い、単一 RGB 画像を複数の意味的に分離された RGBA レイヤーへと分解し、各レイヤーを他の内容に影響されずに独立して操作できるようにします。

可変長分解をサポートするため、以下の三つの主要コンポーネントを導入しました:

  1. RGBA‑VAE – RGB と RGBA 画像の潜在表現を統一するモデル。
  2. VLD‑MMDiT(Variable Layers Decomposition MMDiT)– 可変数レイヤー分解に対応したアーキテクチャ。
  3. マルチステージ学習戦略 – 事前学習済み画像生成モデルを多層画像分解器へと適応させる手法。

さらに、高品質な多層訓練データが不足している問題に対処するため、Photoshop ドキュメント(PSD)から多層画像を抽出・注釈付けするパイプラインを構築しました。実験結果は、本手法が既存のアプローチを大幅に上回る分解品質を実現し、一貫性ある画像編集の新たなパラダイムを確立できることを示しています。コードとモデルは以下で公開しています:
https://github.com/QwenLM/Qwen-Image-Layered


追加リソース


引用・リンク情報

  • 本論文を引用しているモデル – 2

    • Qwen/Qwen‑Image‑Layered(画像→テキスト→画像、約18時間前に更新、42 スター、155 フォーク)
    • Runware/Qwen‑Image‑Layered(画像→テキスト→画像、約8時間前に更新)
  • 本論文を引用しているデータセット – 0

    データセットの README.md に

    arxiv.org/abs/2512.15603
    を記載してリンクしてください。

  • 本論文を引用している Spaces – 3

  • 本論文を含むコレクション – 3

同じ日のほかのニュース

一覧に戻る →

2025/12/20 7:13

CSS Grid Lanes

## Japanese Translation: > **Safari Technology Preview 234 は CSS Grid Lanes を導入しました**。これは、開発者が JavaScript なしで CSS 内で直接モザイク風グリッドを構築できる新しいレイアウトモードです。 > > 開発者は `display: grid-lanes;` と標準の Grid 構文(`grid-template-columns`、`repeat(auto-fill, …)` など)を組み合わせて柔軟なレーンを作成します。アイテムは自動的に最も近い上部レーンに配置され、無限スクロールとタブフレンドリーなナビゲーションが可能になります。 > > **高度な機能** には、レーンサイズの変更(`minmax(8rem, 1fr) minmax(16rem, 2fr)`)、アイテムの跨ぎ(`grid-column: span N`)、明示的配置(`grid-column: -3 / -1`)および新しい `item-tolerance` プロパティ(デフォルトは `1em`)が含まれます。これは、サイズ差に基づいてアイテムがレーンをどれだけ積極的にシフトするかを制御します。レーンは列方向(「ウォーターフォール」)または行方向(「レンガレイアウト」)で向きを設定でき、デフォルトの流れは通常です。 > > 実装は 2022 年中頃に開始され、Safari TP 234 で利用可能です。ライブデモは <https://webkit.org/demos/grid3>(写真ギャラリー、ニュースレイアウト、博物館サイト、メガメニューフッター)でホストされています。CSS Working Group はまだプロパティ名と向きの構文(`grid-lanes-direction` か `grid-auto-flow` の再利用)を最終化中です。その決定が下り次第、この機能は本番環境で使用できるようになります。 > > 開発者にとって、これは追加の JavaScript を必要とせず、より高速でパフォーマンスの高いレスポンシブレイアウトを実現することを意味し、ブラウザベンダーは同様の機能を採用する可能性があり、将来のウェブデザイン標準に影響を与えるでしょう。

2025/12/19 0:01

Mistral OCR 3

## Japanese Translation: Mistral OCR 3 は、従来のエンタープライズツールと AI ネイティブ競合他社の両方を上回る高精度な OCR モデルです。フォーム、スキャン文書、複雑な表、および手書き文字に対して Mistral OCR 2 と比較し、全体で 74 % の勝率を達成します。このモデルは、1,000 ページあたり $2(50 % Batch‑API 割引適用で 1,000 ページあたり $1)と価格設定されており、シンプルな API または Mistral AI Studio のドラッグ&ドロップ Document AI Playground を通じてアクセスできます。 主な強みは次のとおりです: * **手書き文字サポート** – 連続体文字、混合内容、および印刷フォーム上の手書き文字。 * **フォーム処理** – 請求書、領収書、コンプライアンスフォーム、政府文書におけるボックス、ラベル、手書き入力、および密集レイアウトの検出を改善。 * **頑健性** – 圧縮アーティファクト、傾斜、歪み、低 DPI、背景ノイズ、複雑なレイアウトに対処。 * **表再構築** – ヘッダー、結合セル、多行ブロック、および列階層を完全にサポートし、colspan/rowspan を含む HTML テーブルタグ付きの拡張マークダウンを出力。 初期採用者はすでに Mistral OCR 3 を高ボリュームのエンタープライズパイプラインに統合しています:請求書を構造化フィールドへ変換、会社アーカイブのデジタル化、技術レポートからクリーンテキストを抽出、および企業検索の強化。精度、コスト効果、柔軟な展開の組み合わせにより、大規模文書処理を業界横断で変革できる競争力ある代替手段として位置づけられています。

2025/12/20 8:59

PBS News Hour West to go dark after ASU discontinues contract

## Japanese Translation: ## Summary アリゾナ州立大学(ASU)のウォルター・クロンスキー報道学部は、PBS NewsHour Westとのパートナーシップを更新しないことを決定し、2019 年から ASU のダウンタウンフェニックスキャンパスで運営されていた事務所を実質的に閉鎖しました。この動きは「ASUの優先事項の変更」に起因すると、News Hour Productions の GM 兼 WETA EVP/CCO のマイケル・ランチリオが述べました。PBS およびアリゾナ PBS は追加説明を行わず、ASU に感謝し、地域ニュースへの継続的な取り組みを約束しました。 閉鎖により、西海岸で 20 % 以上の視聴者に到達することを支援していた西部本部としての事務所の役割が終了します。また、ASU のジャーナリズム学生(例:AJ Ceglia 学長)に実地報道経験と就職機会を提供していたインターンシッププログラムも消滅します。現在のインターンは学術クレジットを受け取りますが、卒業要件を満たすために代替配置を探す必要があります。 PBS NewsHour West の最終全国放送は 12 月 19 日に行われます。クロンスキー建物は、事務所閉鎖前に学校のサポートを称える形で夜間放送に登場しました。この報道は *The State Press* のジュニアレポーター、エマ・ブラッドフォード(連絡先:elbradfo@asu.edu; X @emmalbradford)によって取り上げられました。彼女も ASU のジャーナリズム/メディアコミュニケーション学部の学生です。 この決定は、西米国における地域ニュースの報道を減少させ、PBS の視聴者エンゲージメントを低下させ、新進気鋭のジャーナリストのプロフェッショナルパスウェイを制限する可能性があります