Open kabupen opened 9 months ago
パノラマ画像を生成する際に既存の Diffusion model ではモンタージュするのには限界があったが、本論文では SyncDiffusion と呼ばれるモデルを提案して従来手法の限界を更新した。
StableDiffusion を再学習せず条件づけする技術として
などがあげられている。その他には guided diffusion などもあり、本研究でも guided diffusion framework を導入している。
MultiDiffusion, DiffCollage では各 reverse step において中間生成物を結合してパノラマ画像を作成していた。画像全体の一貫性(global semantic coherence)の保持は難しかったようです。
Denoising Diffusion Probabilistic Models ではデータ分布 $q(x0)$ を $p\theta(x_0)$ で近似する手法を採る。時刻 $t$ でガウスノイズからサンプリングして、それを逆拡散することでデータを生成する。
MultiDiffusion では multi-window joint diffusion approach を採ることでパノラマ画像を生成している。パノラマ全体の画像を、各ウィンドウ(パッチ)に対応した情報で正規化している?
$$ z{t} = \frac{ \sum{i} T{i \rightarrow z}(x{t}^{(i)})}{\Sigma m^{(i)}} $$
MultiDiffusion では全体の統一感はなくなる画像が生成されてしまう。
同様に SyncDiffusion でも reverse process におけるノイズ画像を更新する。重なっている領域の色味や latent features を平均化するのではなく、perceptual similarity loss の back prop. を利用している(?)。
LPIPS, Style Loss と呼ばれる off-the-shelf loss function を使用して、画像の "スタイル" に関する loss を計算している。各パッチごとの類似性を計算して、似通うように計算することで overlap 部分や画像全体の一貫性を担保している。
layout-to-image pipeline で使用した場合、従来手法よりも画像全体の一貫性は担保できている(背景の天気の具合)
その他:
SyncDiffusion: Coherent Montage via Synchronized Joint Diffusions
Abstract
パノラマ画像を生成する際に既存の Diffusion model ではモンタージュするのには限界があったが、本論文では SyncDiffusion と呼ばれるモデルを提案して従来手法の限界を更新した。
Related work
Few-shot/Zero-shot adaptation
StableDiffusion を再学習せず条件づけする技術として
などがあげられている。その他には guided diffusion などもあり、本研究でも guided diffusion framework を導入している。
Mantage Generation
MultiDiffusion, DiffCollage では各 reverse step において中間生成物を結合してパノラマ画像を作成していた。画像全体の一貫性(global semantic coherence)の保持は難しかったようです。
Backgrounds
Diffusion models
DDPM
Denoising Diffusion Probabilistic Models ではデータ分布 $q(x0)$ を $p\theta(x_0)$ で近似する手法を採る。時刻 $t$ でガウスノイズからサンプリングして、それを逆拡散することでデータを生成する。
Joint Diffusion
MultiDiffusion では multi-window joint diffusion approach を採ることでパノラマ画像を生成している。パノラマ全体の画像を、各ウィンドウ(パッチ)に対応した情報で正規化している?
$$ z{t} = \frac{ \sum{i} T{i \rightarrow z}(x{t}^{(i)})}{\Sigma m^{(i)}} $$
SyncDiffusion
MultiDiffusion では全体の統一感はなくなる画像が生成されてしまう。
同様に SyncDiffusion でも reverse process におけるノイズ画像を更新する。重なっている領域の色味や latent features を平均化するのではなく、perceptual similarity loss の back prop. を利用している(?)。
perceptual similarity loss
LPIPS, Style Loss と呼ばれる off-the-shelf loss function を使用して、画像の "スタイル" に関する loss を計算している。各パッチごとの類似性を計算して、似通うように計算することで overlap 部分や画像全体の一貫性を担保している。
疑似アルゴリズム
Results
Applications
Layout-guided image generation
layout-to-image pipeline で使用した場合、従来手法よりも画像全体の一貫性は担保できている(背景の天気の具合)
memo
気になるキーワード