SPADE [Semantic Image Synthesis with Spatially-Adaptive Normalization]

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1903.07291
公開日時：2019/03/18
被引用数（記事作成時点）：29 件
実装コード：https://github.com/NVlabs/SPADE
プロジェクトページ：https://nvlabs.github.io/SPADE/

1. どんなもの？

条件付け正規層である spatially-adaptive normalization により、セマンティック情報をネットワーク内部で失なわれないようにし、セマンティクス画像を外部入力としてユーザーが制御出来るようにする。
更に、セマンティックマスク画像をネットワークの途中で入力することにより空いた生成器の入力部にスタイル画像を入力することで、画像を合成する際にセマンティック情報とスタイルの両方をマルチモーダルにユーザーが制御出来るようにする。

2. 先行研究と比べてどこがすごいの？

画像合成タスクにおいて、従来の CNN で採用されている batch normalization では、その計算過程でセマンティックセグメンテーションの情報が失われていた。SPADE では、batch normalization を使用せず、代わりに spatially-adaptive normalization を使用することでネットワークの途中でセマンティクス情報が失われないようにしている。
これにより、セマンティック画像をネットワークの外部入力としてユーザーが制御出来るようになる。
更に、セマンティックマスク画像をネットワークの途中で入力したことにより空いた生成器の入力部に、潜在変数としてのランダムノイズベクトルを入力することにより、セマンティック情報とスタイル（画風）のマルチモーダルな画像生成を行うことが出来る。特に、ランダムノイズベクトルの代わりに、スタイル画像を入力することにより、以下の図のように、画像を合成するときにセマンティック情報とスタイルの両方をマルチモーダルにユーザーが制御出来るようにしている。

3. 技術や手法の"キモ"はどこにある？

◎ SPADE の正規化層：

SPADEでは、セマンティックマスク画像は、まず畳み込み層で埋め込み空間へ埋め込まれる。その後、埋め込れたセマンティック情報は、２つの畳み込み層でそれぞれ、「（後述のアフィン変換のための）スケーリング係数としての調整パラメータ γ 」、「（後述のアフィン変換のための）バイアス係数としての調整パラメーター β」として再変換される。そして、以下のようなアフィン変換の式のスケーリング係数とバイアス係数として、２つの調整パラメーター γ, β をそれぞれ”ピクセル単位で”乗算＆加算する。この処理により、下図のように、モデルに入力するセマンティックセグメンテーションマスク画像からのセマンティック情報を完全には失うことなしに、後段のネットワークへ伝搬させることが出来る。 ※ この正規化層は、後述で説明する生成器のアーキテクチャの一部分となる。

◎ SPADE の生成器：

ベースラインは pix2pixHD
decoder のみで構成：学習された調整パラメータ γ、β がラベルレイアウトに関する十分な情報を集約しエンコードしているので、セグメンテーションマスク画像を生成器の最初の層への入力が不要。そのため、encoder 部分を使用せず、これにより、ネットワークはより軽量になる。
ランダムベクトル（＝潜在変数）を入力として利用：セグメンテーションマスク画像は、SPADE の正規化層でネットワークの途中で埋め込むために、セグメンテーションマスク画像を SPADE の生成器の入力部で入力する必要はない。代わりに、潜在変数としてのランダムベクトルを生成器に入力する。

◎ SPADE の識別器

PatchGAN を採用ベースラインとしている pix2pixHD と同じく、識別器に PatchGAN を採用している。
マルチスケール識別器ベースラインとしている pix2pixHD と同じく、マルチスケールでの識別器となる。高解像度の画像を処理を１つの識別器で実現しようとすると、層の深さがよりディープになりメモリ消費が大きくなってしまう。このマルチスケールでの識別器では、この問題を解決するために、３つの識別器の用意し、それぞれ１倍の解像度スケール、½ 倍の解像度スケール、¼ 倍の解像度スケールでの処理を行わせるようにする。これによりトータルでのメモリ消費量が軽減され、更にそれぞれの解像度スケールで画像の大域的特徴量と局所的特徴量の両方を捉えることを可能にしている。

◎ Image Encoder を利用したマルチモーダルな合成画像生成

入力としてセマンティックマスク画像とスタイル画像を Image Encoder でエンコードしたランダムベクトルを与え、セマンティック情報とスタイルのマルチモーダルで多様な合成画像を出力するために、先に説明した SPADE の生成器と識別器に Image Encoder を組み合わせた左上図のようなネットワークを使用する。右上図の Image Encoder は、本物画像を、潜在変数としての本物画像の平均値 μ と分散値 σ にエンコードして集約するネットワーク。即ち、Image Encoder と SPADE の生成器の関係は、VAE と同じ構成となっている。そして、この Image Enocder により入力された本物画像のスタイル情報が後段のネットワークに伝搬される。結果として、セマンティック情報とスタイルのマルチモーダルな画像生成を行うことが可能となる。 ※ 尚、この際の誤差逆伝播法によるスタイル情報の伝播は、VAE の reparameterization trick により実現している。

◎ SPADE の損失関数

adversarial loss : 従来の GAN のように、本物画像と生成器が生成した偽物画像に対しての、識別器の判定結果を元にした損失関数で、真の分布とモデルの分布の２つの分布を一致させるように働く損失関数。但し、pix2pixHD とは異なり、学習を安定化させることを目的として行われる、負の対数尤度計算の最小二乗誤差関数への置き換え（LS-GAN）は行わず、代わりに、ヒンジ損失関数項で置き換える。（※ ヒンジ損失関数では、ある範囲外からは勾配が０になるので、生成器と識別器の不健全な競争の結果として、識別器が不本意に強くなりすぎることを防止でき、結果して学習を安定化させる効果があると考えられる。）
feature matching loss : pix2pixHD で採用されている損失関数で、本物画像と偽物画像を識別器に入力した時に、識別器の各層から出力される本物画像と偽物画像中間出力が一致するように動作する損失関数。
perceptual loss : pix2pix-HD で採用されている損失関数で、出力画像と教師データとの間の ”ピクセル単位の” L1損失関数。
KL ダイバージェンスの損失関数セマンティック情報とスタイルのマルチモーダルな合成画像を出力するためには、入力として、セマンティックマスク画像とスタイル画像を Image Encoder でエンコードしたランダムベクトルを与えることになるが、この Image Encoder ありのフレームワークの時は、上式で定義される KL ダイバージェンスの項目も損失関数に追加する。（※ Image Encoder は、VAE を構成するので、損失関数は、KLダイバージェンスで定義されるものとなる。）

4. どうやって有効だと検証した？

生成画像の品質の定量的な比較結果：上表は、いくつかのデータセットに対する従来の画像合成手法（CRN, SIMS, pix2pixHD）と SPADE の生成画像の品質を、定量的な品質評価指標である mIoU（=IoU の平均値）, ピクセル全体での正解率（=accu）, FID を元に比較した表である。全てのデータセットに対して、SPADE が大幅な有意差で最も優れた手法であることが見て取れる。
生成画像の品質の定性的な比較結果：上図は、COCO-Stuff データセットに対して、従来の手法（CRN, pix2pixHD）と SPADE の生成画像の品質を定性的に比較した図である。SPADE での生成画像が、セマンティックラベルの画像の鮮明度さの面で、最も優れた画像を生成出来ていることが見て取れる。

上図は、ADE20K-outdoor データセットと Cityscapes データセットに対して、従来の手法（CRN, SIMS, pix2pixHD）と SPADE の生成画像の品質を定性的に比較した図である。SPADE での生成画像が、画像の鮮明度とセマンティックラベルの正確性の面で、最も優れた画像を生成出来ていることが見て取れる。 ※ SIMS では画像の鮮明さの面では優れているが、対応するセマンティックラベルの位置がずれている。
生成画像の多様性：上図は、それぞれ Flickr Landscapes データセットと COCO-Stuff データセットで学習した SPADE が生成した合成画像を示した図である。SPADE では、高品質かつ多様性な画像を忠実に生成出来ていることが見てとれる。
AMT を利用した人間による定性的評価：
合成画像における SPADE の性能向上効果：
SPADE の生成器の構成を変えた場合の性能比較：
ラベル情報とスタイルのマルチモーダルな画像画像の生成結果：

5. 議論はあるか？

ImageEncoder として、VAE を採用しているが、より発展版のネットワーク構成を利用することで、更に品質を高めることが出来ないか？
例えば、仮想人物生成タスクにおいて、入力するセマンティクス画像として同一人物の異なる姿勢のセマンティクス画像を入力することで、異なる服と異なる姿勢でマルチモーダルに外部から制御することが可能となる？

Yagami360 / machine-learning-papers-survey