**画像・動画VAE実験で得られた4か月間の学び**

Japanese Translation:

Linumは詳細なトレーニングログとともにオープンソースのImage‑Video VAEを公開し、再構成品質を過度に厳格化するとモデルが不安定になり、下流の拡散性能が低下することを示しました。
チームは2024年7月から11月までトレーニングを行い、初めは4×空間/時間ダウンサンプリングベースラインを使用したものの、80 GB H100 GPUでも360 pクリップでは失敗しました。より高いダウンサンプリング比率を検討した結果、8×空間 / 4×時間構成のみが利用可能な180 p再構成を生成できました（ただし時折アーティファクトが発生）。
「静止動画」として画像を共訓練すると、大きいビデオテンソルに有利な損失不均衡が生じ、画像重みが高いとNaNが発生しました。安定化のテクニックとして、Group Normalization、適応的勾配クリッピング（AGC）、スプラッシュアーティファクトを除去するSelf‑Modulating Convolution（SMC）、問題のあるAttentionBlockをPixel Norms（QK‑Norm/コサイン注意）に置き換えることがこれらの問題を解決しました。
低解像度を維持しつつ高解像度を追加するカリキュラムと、損失重みを約1.1（180 p）、0.1（360 p）および0.01（720 p）に設定したことで、さらに安定性が向上しました。Linumは小型で性能も同等のWan 2.1 VAE（2025年2月リリース）を採用し、再構成を過度に最適化すると圧縮ノイズ（例：JPEGアーティファクト）が導入され、意味的分離と下流拡散指標が損なわれること（Yao et al. 2025）を指摘しました。
著者は将来の2つの方向性を提案しています：（1）REPAやDINOなど事前学習済みビジョンエンコーダに対する整合損失でVAEを正則化し、（2）JITスタイルのフローマッチング目的関数を用いてピクセル空間で直接拡散モデルをトレーニングすること。モデルとこれらのトレーニングインサイトを共有することで、Linumは研究者がより安定した潜在拡散パイプラインを構築し、ビデオ生成における圧縮品質の取引を洗練させることを目指しており、学術研究と商業応用の両方に利益をもたらします。

Linum Image‑Video VAE – 2024–2026 フィールドノート

概要

現代のビデオ生成は拡散トランスフォーマーに依存していますが、注意機構はシーケンス長とともに 二次関数的 に増大し、ピクセル空間での計算が非実用的になります。
変分オートエンコーダ（VAE）は画像・動画をコンパクトな潜在空間へ圧縮し、拡散モデルがその領域で動作できるようにします。

私たちは Image‑Video VAE をオープンソース化し、実験ログと主要な洞察を公開します：

圧縮性能が向上しても必ずしも VAE の安定性や下流生成品質が高くなるわけではありません。
画像・動画タスク用に VAE を訓練するには、NaN やスプラッシュ、共訓練の不安定さをデバッグして数か月を費やしました。
最終的に私たちは最新のテキスト→ビデオモデルで Wan 2.1 VAE を採用しましたが、得られた教訓は依然として価値があります。

なぜ VAE を構築するのか？

問題	解決策
拡散トランスフォーマーは連続的な潜在値（JPEG/AV1 のような離散ビンではなく）を必要とします。	VAE は連続的に圧縮された表現を生成します。

VAE は入力 (x) を低次元の潜在変数 (z) に圧縮し、そこから (\hat{x}) を再構成します。
エンコーダは (z) 上のガウス分布を出力し、デコーダはそれからサンプルします。

訓練目的

KL項 – 後方分布を単位正規分布に引き寄せます。
重み ≈ (10^{-6})（ほぼゼロ） －私たちは生成的サンプリングよりも滑らかで連続的な圧縮を望んでいます。
再構成損失 – ラプラス分布の負対数尤度 → 学習済み信頼パラメータ（Sigma‑VAE のアイデア）付き L1 損失に簡略化します。
知覚損失 – VGG ベースの特徴差で (x) と (\hat{x}) を比較します。
敵対的損失 – GAN スタイルのディスクリミネータがシャープなディテールを強制します。

画像と動画の共訓練では、合計損失は画像損失 + 動画損失の和です。

ベースライン：動画専用 VAE（1 週間）

CNN エンコーダ/デコーダを使用し、Conv2D を Conv3D に置き換えました。
最初は 4× 空間・時間ダウンサンプリング → 圧縮不足で 80 GB H100 で OOM。
より高い圧縮を試みた結果：
- 8× 8×96 – 再構成が劣る
- 16× 4×192 – 再構成が劣る
- 8× 4×48 – 実用的；180p でまれにアーティファクト

有効圧縮率 = 高さ ↓ × 幅 ↓ × 時間 ↓ × (3 RGB / 16 潜在チャンネル)

画像と動画の共訓練（3 ヶ月）

静止画‑ビデオトリック

単一画像を 4 フレームの「静止ビデオ」にパディング。
問題点：画像再構成が劣化。

損失スケーリング問題

元々は全次元で損失を合計 → 動画が勾配を支配。
サンプル毎の平均に修正するとピクセルサイズに過度に敏感に。
解決策：固定参照形状（例：256×256 画像）で正規化し、解像度間で損失量を一定に保ちました。

不安定さと NaN

Group Normalization を全層に追加 → 初期の安定化は得られたが、深い訓練ではまだ爆発。
FiLM 層でモダリティ条件付けを試みると勾配が爆発。
Adaptive Gradient Clipping (AGC) を採用 → NaN は減少したが「黒点」が再構成に現れた。

黒点対策

Group Norm + CNN ブロックを Self‑Modulating Convolution (SMC) に置き換え：畳み込み重みを正規化し、活性化ではなく重みに作用。
エンコーダ中段ブロックの AttentionBlock を Pixel Normalization（QK‑Norm / コサイン注意）に変更。
これで 720p までクリーンな再構成が得られました。

異なる解像度での訓練（2 週間）

初期カリキュラム：180p → 360p → 720p。
- 最終チェックポイントでは低解像度を忘れてしまった。
新しいカリキュラム：低解像度で継続訓練しながら高解像度を追加。
ハイパーパラメータ探索で最適な損失重みが判明：
- 180p ≈ 1.1
- 360p ≈ 0.1
- 720p ≈ 0.01

Wan 2.1 VAE への切替（2025年2月）

オフライン埋め込みで拡散実験中の計算を節約。
Wan 2.1 の VAE は小型・高速、かつ空間注意のみを使用 – これを採用しました。

再構成品質と生成品質

観察結果：再構成 FID が 良くなる VAE は、逆に生成 FID が 悪化する（例：Yao et al. 2025: rFID ↓ だが gFID ↑）。
理由：圧縮アーティファクトや低品質サンプルへの過学習は潜在空間をノイズで埋め込み、意味的情報を失わせる。

「学習可能」な潜在空間に向けた 2 戦略

VAE を正則化（例：REPA、事前訓練済みビジョンエンコーダとの整合損失）。
- DINO 等と拡散モデルの隠れ状態を合わせる。
VAE を完全に省略し、流体マッチング目的でピクセル空間で拡散を訓練（JIT アプローチ）。
- まだ実験段階であり、ノイズへの過学習が懸念される。

私たちについて

テキスト→ビデオモデルを一から構築し、アニメーション制作の民主化を目指す兄弟二人。
生成動画モデリングに関する深い技術的洞察と Linum のリリース情報を共有しています。