adversarial loss :
従来の GAN のように、本物画像と生成器が生成した偽物画像に対しての、識別器の判定結果を元にした損失関数で、真の分布とモデルの分布の2つの分布を一致させるように働く損失関数。
但し、pix2pixHD とは異なり、学習を安定化させることを目的として行われる、負の対数尤度計算の最小二乗誤差関数への置き換え(LS-GAN)は行わず、代わりに、ヒンジ損失関数項で置き換える。(※ ヒンジ損失関数では、ある範囲外からは勾配が0になるので、生成器と識別器の不健全な競争の結果として、識別器が不本意に強くなりすぎることを防止でき、結果して学習を安定化させる効果があると考えられる。)
feature matching loss :
pix2pixHD で採用されている損失関数で、本物画像と偽物画像を識別器に入力した時に、識別器の各層から出力される本物画像と偽物画像中間出力が一致するように動作する損失関数。
perceptual loss :
pix2pix-HD で採用されている損失関数で、出力画像と教師データとの間の ”ピクセル単位の” L1損失関数。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
◎ SPADE の正規化層:
SPADEでは、セマンティックマスク画像は、まず畳み込み層で埋め込み空間へ埋め込まれる。その後、埋め込れたセマンティック情報は、2つの畳み込み層でそれぞれ、「(後述のアフィン変換のための)スケーリング係数としての調整パラメータ γ 」、「(後述のアフィン変換のための)バイアス係数としての調整パラメーター β」として再変換される。そして、以下のようなアフィン変換の式のスケーリング係数とバイアス係数として、2つの調整パラメーター γ, β をそれぞれ”ピクセル単位で”乗算&加算する。 この処理により、下図のように、モデルに入力するセマンティックセグメンテーションマスク画像からのセマンティック情報を完全には失うことなしに、後段のネットワークへ伝搬させることが出来る。 ※ この正規化層は、後述で説明する生成器のアーキテクチャの一部分となる。
◎ SPADE の生成器:
◎ SPADE の識別器
◎ Image Encoder を利用したマルチモーダルな合成画像生成
入力としてセマンティックマスク画像とスタイル画像を Image Encoder でエンコードしたランダムベクトルを与え、セマンティック情報とスタイルのマルチモーダルで多様な合成画像を出力するために、先に説明した SPADE の生成器と識別器に Image Encoder を組み合わせた左上図のようなネットワークを使用する。 右上図の Image Encoder は、本物画像を、潜在変数としての本物画像の平均値 μ と分散値 σ にエンコードして集約するネットワーク。即ち、Image Encoder と SPADE の生成器の関係は、VAE と同じ構成となっている。そして、この Image Enocder により入力された本物画像のスタイル情報が後段のネットワークに伝搬される。結果として、セマンティック情報とスタイルのマルチモーダルな画像生成を行うことが可能となる。 ※ 尚、この際の誤差逆伝播法によるスタイル情報の伝播は、VAE の reparameterization trick により実現している。
◎ SPADE の損失関数
adversarial loss : 従来の GAN のように、本物画像と生成器が生成した偽物画像に対しての、識別器の判定結果を元にした損失関数で、真の分布とモデルの分布の2つの分布を一致させるように働く損失関数。 但し、pix2pixHD とは異なり、学習を安定化させることを目的として行われる、負の対数尤度計算の最小二乗誤差関数への置き換え(LS-GAN)は行わず、代わりに、ヒンジ損失関数項で置き換える。(※ ヒンジ損失関数では、ある範囲外からは勾配が0になるので、生成器と識別器の不健全な競争の結果として、識別器が不本意に強くなりすぎることを防止でき、結果して学習を安定化させる効果があると考えられる。)
feature matching loss : pix2pixHD で採用されている損失関数で、本物画像と偽物画像を識別器に入力した時に、識別器の各層から出力される本物画像と偽物画像中間出力が一致するように動作する損失関数。
perceptual loss : pix2pix-HD で採用されている損失関数で、出力画像と教師データとの間の ”ピクセル単位の” L1損失関数。
KL ダイバージェンスの損失関数 セマンティック情報とスタイルのマルチモーダルな合成画像を出力するためには、入力として、セマンティックマスク画像とスタイル画像を Image Encoder でエンコードしたランダムベクトルを与えることになるが、この Image Encoder ありのフレームワークの時は、上式で定義される KL ダイバージェンスの項目も損失関数に追加する。(※ Image Encoder は、VAE を構成するので、損失関数は、KLダイバージェンスで定義されるものとなる。)
4. どうやって有効だと検証した?
生成画像の品質の定量的な比較結果: 上表は、いくつかのデータセットに対する従来の画像合成手法(CRN, SIMS, pix2pixHD)と SPADE の生成画像の品質を、定量的な品質評価指標である mIoU(=IoU の平均値), ピクセル全体での正解率(=accu), FID を元に比較した表である。全てのデータセットに対して、SPADE が大幅な有意差で最も優れた手法であることが見て取れる。
生成画像の品質の定性的な比較結果: 上図は、COCO-Stuff データセットに対して、従来の手法(CRN, pix2pixHD)と SPADE の生成画像の品質を定性的に比較した図である。SPADE での生成画像が、セマンティックラベルの画像の鮮明度さの面で、最も優れた画像を生成出来ていることが見て取れる。
上図は、ADE20K-outdoor データセットと Cityscapes データセットに対して、従来の手法(CRN, SIMS, pix2pixHD)と SPADE の生成画像の品質を定性的に比較した図である。SPADE での生成画像が、画像の鮮明度とセマンティックラベルの正確性の面で、最も優れた画像を生成出来ていることが見て取れる。 ※ SIMS では画像の鮮明さの面では優れているが、対応するセマンティックラベルの位置がずれている。
生成画像の多様性: 上図は、それぞれ Flickr Landscapes データセットと COCO-Stuff データセットで 学習した SPADE が生成した合成画像を示した図である。SPADE では、高品質かつ多様性な画像を忠実に生成出来ていることが見てとれる。
AMT を利用した人間による定性的評価:
合成画像における SPADE の性能向上効果:
SPADE の生成器の構成を変えた場合の性能比較:
ラベル情報とスタイルのマルチモーダルな画像画像の生成結果:
5. 議論はあるか?
6. 次に読むべき論文はあるか?