Yagami360 / machine-learning-papers-survey

機械学習関連の論文Survey用レポジトリ
135 stars 6 forks source link

SPADE [Semantic Image Synthesis with Spatially-Adaptive Normalization] #7

Open Yagami360 opened 5 years ago

Yagami360 commented 5 years ago

0. 論文情報・リンク

1. どんなもの?

2. 先行研究と比べてどこがすごいの?

3. 技術や手法の"キモ"はどこにある?

◎ SPADE の正規化層:

image SPADEでは、セマンティックマスク画像は、まず畳み込み層で埋め込み空間へ埋め込まれる。その後、埋め込れたセマンティック情報は、2つの畳み込み層でそれぞれ、「(後述のアフィン変換のための)スケーリング係数としての調整パラメータ γ 」、「(後述のアフィン変換のための)バイアス係数としての調整パラメーター β」として再変換される。そして、以下のようなアフィン変換の式のスケーリング係数とバイアス係数として、2つの調整パラメーター γ, β をそれぞれ”ピクセル単位で”乗算&加算する。 image この処理により、下図のように、モデルに入力するセマンティックセグメンテーションマスク画像からのセマンティック情報を完全には失うことなしに、後段のネットワークへ伝搬させることが出来る。 image ※ この正規化層は、後述で説明する生成器のアーキテクチャの一部分となる。

◎ SPADE の生成器:

image

◎ SPADE の識別器

image

◎ Image Encoder を利用したマルチモーダルな合成画像生成

image 入力としてセマンティックマスク画像とスタイル画像を Image Encoder でエンコードしたランダムベクトルを与え、セマンティック情報とスタイルのマルチモーダルで多様な合成画像を出力するために、先に説明した SPADE の生成器と識別器に Image Encoder を組み合わせた左上図のようなネットワークを使用する。 右上図の Image Encoder は、本物画像を、潜在変数としての本物画像の平均値 μ と分散値 σ にエンコードして集約するネットワーク。即ち、Image Encoder と SPADE の生成器の関係は、VAE と同じ構成となっている。そして、この Image Enocder により入力された本物画像のスタイル情報が後段のネットワークに伝搬される。結果として、セマンティック情報とスタイルのマルチモーダルな画像生成を行うことが可能となる。 ※ 尚、この際の誤差逆伝播法によるスタイル情報の伝播は、VAE の reparameterization trick により実現している。

◎ SPADE の損失関数

4. どうやって有効だと検証した?

5. 議論はあるか?

6. 次に読むべき論文はあるか?