SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

Abstract

パノラマ画像を生成する際に既存の Diffusion model ではモンタージュするのには限界があったが、本論文では SyncDiffusion と呼ばれるモデルを提案して従来手法の限界を更新した。

Related work

Few-shot/Zero-shot adaptation

StableDiffusion を再学習せず条件づけする技術として

ControlNet
Custom Diffusion
SDEdit
RePaint

などがあげられている。その他には guided diffusion などもあり、本研究でも guided diffusion framework を導入している。

Mantage Generation

MultiDiffusion, DiffCollage では各 reverse step において中間生成物を結合してパノラマ画像を作成していた。画像全体の一貫性（global semantic coherence）の保持は難しかったようです。

Backgrounds

Diffusion models

DDPM

Denoising Diffusion Probabilistic Models ではデータ分布 $q(x0)$ を $p\theta(x_0)$ で近似する手法を採る。時刻 $t$ でガウスノイズからサンプリングして、それを逆拡散することでデータを生成する。

Joint Diffusion

MultiDiffusion では multi-window joint diffusion approach を採ることでパノラマ画像を生成している。パノラマ全体の画像を、各ウィンドウ（パッチ）に対応した情報で正規化している？

$$ z{t} = \frac{ \sum{i} T{i \rightarrow z}(x{t}^{(i)})}{\Sigma m^{(i)}} $$

SyncDiffusion

MultiDiffusion では全体の統一感はなくなる画像が生成されてしまう。

同様に SyncDiffusion でも reverse process におけるノイズ画像を更新する。重なっている領域の色味や latent features を平均化するのではなく、perceptual similarity loss の back prop. を利用している（？）。

perceptual similarity loss

LPIPS, Style Loss と呼ばれる off-the-shelf loss function を使用して、画像の "スタイル" に関する loss を計算している。各パッチごとの類似性を計算して、似通うように計算することで overlap 部分や画像全体の一貫性を担保している。

noise の状態だと似たような loss の値
最終的に生成する $x_0$ に対して loss は似ていれば小さく、離れていれば大きくなる

疑似アルゴリズム

ある $i$ 番目のパッチの画像生成方法
anchor window （画風を固定するための参考情報として使用する window）との loss を計算して行って、その loss を使って latent imates ($x$) を修正していく

Results

Applications

Layout-guided image generation

layout-to-image pipeline で使用した場合、従来手法よりも画像全体の一貫性は担保できている（背景の天気の具合）

memo

気になるキーワード

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
DiffCollage: Parallel Generation of Large Content with Diffusion Models
LPIPS（Learned Perceptual Image Patch Similarity）

kabupen / papers