kabupen / papers

0 stars 0 forks source link

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions #1

Open kabupen opened 10 months ago

kabupen commented 10 months ago

SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions

Abstract

パノラマ画像を生成する際に既存の Diffusion model ではモンタージュするのには限界があったが、本論文では SyncDiffusion と呼ばれるモデルを提案して従来手法の限界を更新した。

Related work

Few-shot/Zero-shot adaptation

StableDiffusion を再学習せず条件づけする技術として

などがあげられている。その他には guided diffusion などもあり、本研究でも guided diffusion framework を導入している。

Mantage Generation

MultiDiffusion, DiffCollage では各 reverse step において中間生成物を結合してパノラマ画像を作成していた。画像全体の一貫性(global semantic coherence)の保持は難しかったようです。

Backgrounds

Diffusion models

DDPM

Denoising Diffusion Probabilistic Models ではデータ分布 $q(x0)$ を $p\theta(x_0)$ で近似する手法を採る。時刻 $t$ でガウスノイズからサンプリングして、それを逆拡散することでデータを生成する。

image

Joint Diffusion

MultiDiffusion では multi-window joint diffusion approach を採ることでパノラマ画像を生成している。パノラマ全体の画像を、各ウィンドウ(パッチ)に対応した情報で正規化している?

$$ z{t} = \frac{ \sum{i} T{i \rightarrow z}(x{t}^{(i)})}{\Sigma m^{(i)}} $$

SyncDiffusion

MultiDiffusion では全体の統一感はなくなる画像が生成されてしまう。

image

同様に SyncDiffusion でも reverse process におけるノイズ画像を更新する。重なっている領域の色味や latent features を平均化するのではなく、perceptual similarity loss の back prop. を利用している(?)。

perceptual similarity loss

LPIPS, Style Loss と呼ばれる off-the-shelf loss function を使用して、画像の "スタイル" に関する loss を計算している。各パッチごとの類似性を計算して、似通うように計算することで overlap 部分や画像全体の一貫性を担保している。

image

疑似アルゴリズム

image

Results

Applications

Layout-guided image generation

layout-to-image pipeline で使用した場合、従来手法よりも画像全体の一貫性は担保できている(背景の天気の具合)

image

memo

気になるキーワード

kabupen commented 10 months ago

その他: