日本語翻訳:

要約： Moebius は、画像インペイント専用に設計された画期的で軽量な AI フレームワークであり、パラメータ数が 0.22B と非常に少ないながらも、FLUX.1-Fill-Dev などの産業級モデルの約 2% のサイズながら優れた品質を維持し、極度な専門性が巨大な汎用モデルを上回ることを示しています。2026 年に華中科学技術大学（VIVO AI Lab）が arXiv（ID: 2606.19195）を通じて公開しました。

このフレームワークは推論速度で 15 倍以上の高速化を実現しており、単一 GPU で各ステップを 26.01 ms で完了します。これは 10B パラメータ規模のモデル（FLUX.1-Fill-Dev、SD3.5 Large-Inpainting）を含む 6 つのベンチマーク（ Places2、CelebA-HQ、FFHQ など自然シーンとポートレートをカバー）において匹敵または凌駕する性能を発揮しています。この効率性は、Latent Diffusion Model（LDM）アーキテクチャに Latent Categories Guidance（LCG）を装備し、さらに空間的文脈と全体的なセマンティック事前知識を固定サイズ線形行列に変換して計算負荷を回避することを可能にする革新的な Local-λ Mix Interaction（LλMI）ブロックを採用することで実現されています。

また、Moebius は潜在空間内で PixelHacker という教師モデルを活用した適応的多粒度蒸留戦略を採用しており、圧縮時の表現損失を最小化します。さらに、勾配ノルムによる適応的損失加重を用いる動的監視により、マイクロスケールの中間特徴とマクロスケールの拡散軌跡の両方をバランスよく最適化しています。このタスク特化型のプロフェッショナル設計によって、画像インペイントや AI オブジェクト除去などの商用アプリケーションにおいてリアルタイム編集を可能にし、ハードウェア要件と運用コストを大幅に削減します。

Mobius：軽量かつ高効率な画像インペイント・フレームワーク（10B レベルの性能を 0.2B で実現）

本研究では、大規模パラメータを必要とせず、**100 億パラメータ級モデルに匹敵する性能を持つ軽量画像インペイント・フレームワーク「Mobius」**を提案します。従来の「大規模計算＝高性能」という常識を覆し、コンシューマー向けデバイスやエッジ環境でも高品質な編集が実現できるようになります。

概要と背景

現状の課題
- 100 億パラメータ級の産業用モデルは画像インペイント性能を広げましたが、莫大な計算コストが実用的な展開を阻害しています。
- タスク特化型専門モデルの構築は有望ですが、極端な構造圧縮は表現のボトルネックを引き起こします。
Mobius の解決策
- 空間的な文脈とグローバルな意味学的事前知識を固定サイズの線形行列に凝縮する新しいブロックを導入。
- **局所−λ混合相互作用（Local-λ Mix Interaction: LλMI）**ブロックにより拡散モデルのバックボーンを体系的に再構築。
- 極めてコンパクト化したアーキテクチャの表現能力を引き出すため、適応型多粒度蒸留戦略とシナジーを図る。

技術的な手法

Mobius は潜空間拡散モデル（Latent Diffusion Model: LDM）の枠組みを採用し、以下の技術を統合しています。

LλMI ブロックによるアーキテクチャ再設計
- 局所−λ モジュールとインタラクティブ−λ モジュールから構成されます。
- 複雑な潜在空間内の相互作用を維持しつつ、パラメータ数を劇的に削減しながら高品質な表現を実現します。
適応型多粒度蒸留戦略（Adaptive Multi-Granularity Distillation）
- 高価なピクセル空間でのデコードを回避し、潜在空間内のみで動作します。
- 複数の勾配ベースの損失関数を動的にバランスさせ、高忠実度の対齊を実現します。
トレーニング効率化
- 軽量化された専門モデルと高容量な教師モデルとの対齊を促進します。
- 極端な構造圧縮による能力低下を成功裏に軽減します。

ハイライト：主要な成果

📉 極めて高いパラメータ効率（2% 未満）

Mobius はわずか**0.22B（2 億 2,600 万）**のパラメータで動作します。
産業用モデル「FLUX.1-Fill-Dev」（119 億パラメータ）の容量の2% 以下の小型サイズです。
これにより、「大規模計算＝高性能」という従来の常識を覆し、エッジデバイスでも高品質な編集が可能になります。

⚡ 推論速度の 15 倍向上

単一 GPU で 1 ステップあたりの推論遅延をわずか 26.01 msに抑えます。
最適化されたサンプリングステップ数と組み合わせることで、10B レベルモデルとの比較で全体推論時間を最大 15 倍以上も高速化します。

🏆 10B レベルのインペイント品質

6 つのベンチマークにおいて、FLUX.1-Fill-Dev と同等か凌駕する性能を示しました。
- 自然シーン系: Places2 など。
- ポートレート系: CelebA-HQ, FFHQ など。
複雑なテクスチャや顔の自然さなど、表現能力の低下は見られず、サイズ縮小に伴う劣化を解消しています。

💡 シナジー的コアイノベーション

Mobius の性能は以下の技術的革新によるシナジーによって実現されました。

アーキテクチャ設計（LλMI ブロック）
- 自己注意機構とクロス・アテンションの両方を再定式化。
- 空間的文脈およびグローバル知識を固定サイズの線形行列に圧縮し、二乗計算コストがかかる従来のアテンション機構を回避。
適応型多粒度蒸留戦略
- 顕微鏡レベルの中間特徴からマクロスコープレベルの拡散軌跡までをカバーする多粒度監督。
- 勾配ノルムに依存する適応型損失重み付け機構により、トレーニング中の動的バランスを保証。
最適なシナジー的調和
- コンパクトな構造と蒸留の相互制約および上限を体系的に探求。
- 0.22B の学生モデルが教師モデル（PixelHacker）の意味論的推論能力を最大化しつつ、表現飽和を防ぐバランス調整を実現。

🚀 タスク特化型の専門家としての役割

単なるスケールアップではなく、「特定のタスクが定義された場合、モデルはより賢く軽量で高速になるか」という問いに回答。
実世界の画像インペイントや AI オブジェクト除去からパラメータ肥大化を解放し、高度に最適化された専門家として機能します。

可視化と比較結果

本研究では以下の分野における比較実験を行いました（※実際の論文プレースホルダー）。

自然シーンベンチマーク (Places2)
- [可視化データなし：論文原文参照]
ポートレートシーンベンチマーク (CelebA-HQ, FFHQ)
- [可視化データなし：論文原文参照]

引用文献

もしこの成果を論文として引用する場合は、以下の BibTeX を使用してください。

@misc{DuanAndXu2026Moebius,
  title={Mobius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance},
  author={Kangsheng Duan and Ziyang Xu and Wenyu Liu and Xiaohu Ruan and Xiaoxin Chen and Xinggang Wang},
  year={2026},
  eprint={2606.19195},
  archivePrefix={arXiv},
  primaryClass={cs.CV},
  url={https://arxiv.org/abs/2606.19195},
}

「Moebius：10B レベルのパフォーマンスを持つ、わずか 0.2B の画像修復モデル」