Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/2008.00951
公開日時：2020/08/03
組織 :
被引用数（記事作成時点）：0 件
実装コード（<公式>PyTorch）: https://github.com/eladrich/pixel2style2pixel
~~実装コード（<非公式>PyTorch）：https://github.com/adldotori/pSp~~
Publication :

1. どんなもの？

入力顔画像を StyleGAN の拡張潜在空間 W+ に適切に encode 可能なピラミッド構造型ネットワークである pSp encoder を用いることで、StyleGAN を活用した品質の高い顔画像生成を実現した image-to-image モデル

2. 先行研究と比べてどこがすごいの？

StyleGAN は、極めて高いレベルで高品質の画像を生成できるものの、潜在変数 z を元に画像生成するタイプの GAN アーキテクチャであり、image-to-image の用途で直接扱えない問題がある。そのため StyleGAN の後発モデルでは、入力画像を潜在空間に encode することで StyleGAN を image-to-image の用途で扱えるようにしたモデルが提案されている。これらのモデルにおいては、StyleGAN の 512 次元の潜在空間 W に入力画像を適切に encode することが困難であるので、18 個の異なる 512 次元の拡張潜在空間 W+ に encode する方法が広く採用されている。しかしながらこのような方法でも、学習用データと推論用データのドメインギャップがある場合などで、入力画像を適切な拡張潜在空間 W+ に encode することが依然として困難であり、その結果として生成画像の品質にも問題が生じる。本手法では、入力顔画像を StyleGAN の拡張潜在空間 W+ に適切に encode 可能なピラミッド構造型ネットワークを用いることで、StyleGAN を活用した品質の高い image-to-image 顔画像生成を実現している。
本手法での拡張潜在空間 W+ への入力画像の encode は直接的に行われるので、従来の追加の最適化処理を用いて潜在空間 W+ に encode する方法と比較して、処理速度が高速になっている。

3. 技術や手法の"キモ"はどこにある？

アーキテクチャの全体像と StyleGAN 拡張潜在空間への encode 処理
上図は、本手法のアーキテクチャ Pixel2Style2Pixel (pSp) の全体像を示した図である。入力画像を StyleGAN の拡張潜在空間 W+ に encode するための最も単純な方法は、encoder の最終層から出力を直接拡張潜在空間 W+ に encode する方法であるが、この方法では適切に enocode 出来ないことが分かっている。そのため本手法では、論文「Feature pyramid networks for object detection」のようなピラミッド構造型ネットワークにおける各 decoder 層からの３つの特徴マップを map2style ネットワークに入力し 18 個のstyle（潜在変数）に変換した上で、それら各 style を StyleGAN の３つの｛低解像度スケール層（4×4~8×8）、中解像度スケール層（16×16~32×32）、高解像度スケール層（64×64~1024×1024）｝それぞれに入力するようにする。ピラミッド構造ネットワークの各 decoder 層が StyleGAN の３つの解像度スケールと対応している点がポイントである。画像 encoder (pSp encoder) のバックボーンネットワークは、顔認識用に事前学習された ResNet-IR を用いている。 ※ ResNet-IR : 論文「Arcface:Additive angular margin loss for deep face recognition」参照 StyleGAN のネットワークは、FFHQ データセットで事前学習された StyleGAN2 のネットワークを用いている。 ※ StyleGAN2 のネットワークは推論専用で学習を行わない。学習を行うのは、pSp encoder 部分のみ
損失関数本手法でのネットワーク（入力画像を encode するピラミッド構造型ネットワーク＋map2style ネットワーク）は、以下の損失関数で学習される。
StyleGAN ベースの image-to-image モデルの利点 StyleGAN ベースの image-to-image モデルでは、他の一般的な image-to-image モデルと比較して、以下のようなメリットがある。
1. 入力画像と出力画像間のピクセルレベルでの局所的な対応関係ない場合での image-to-image タスク一般的な image-to-image モデルでは、入力画像と出力画像間のピクセルレベルでの局所的な対応関係がある場合にしかうまく出力画像を生成出来ない傾向がある。（特に UNet やピラミッド構造ネットワークでは、encoder 側の上位層からの特徴マップを decoder 側の上位層に入力しているので、その傾向が強い）
  
  一方で、本手法のような StyleGAN ベースの image-to-image モデルでは、入力画像を StyleGAN の潜在空間へ埋め込みを行うので、入力画像と出力画像間のピクセルレベルでの局所的な対応関係がない場合にも、（原理的には）出力画像を生成出来るモデルになっている。
2. Style Mixing を活用したマルチモーダルな画像生成 StyleGAN では、３つの生成器層｛低解像度スケール層（4×4~8×8）、中解像度スケール層（16×16~32×32）、高解像度スケール層（64×64~1024×1024）｝に対して、入力する潜在変数を切り替える Style Mixing という操作により、画像詳細の局所的な画像変換処理と画像全体の大域的な画像変換処理を切り分けながら制御出来る。
  本手法では上図のように、Style Mixing のための潜在変数を、入力画像から encode された潜在変数とランダムサンプリングされた潜在変数とに切り分けることで、１つの入力画像から、大域的には類似した特徴を持ちながら局所的な特徴に関しては変化した複数の生成画像をマルチモーダルに出力することが可能になっている。

4. どうやって有効だと検証した？

既存の StyleGAN を利用した image-to-image モデルとの定性的品質比較検証
本手法と同タイプの既存の StyleGAN を利用した image-to-image モデル（ALAE, IDInvert）と比較して、本手法での生成画像は人物同一性をよく保持している。
Ablation study での定性的品質検証
生成画像の品質（人物同一性など）は、 W Identity loss 追加により、人物同一性が大きく向上している。
既存の image-to-image モデルとの定性的品質比較
StyleGAN を活用していない他の一般的な image-to-image モデル（pix2pixHDなど）と比較して、本手法での品質が大きく向上している
sketche-to-image タスクでの既存モデルとの定性的品質比較
一般的な image-to-image モデル（pix2pixHDなど）と比較して、本手法での品質が大きく向上している
label-to-image タスクでの既存モデルとの定性的品質比較
一般的な image-to-image モデル（pix2pixHD, SPADE など）と比較して、本手法での品質が大きく向上している

5. 議論はあるか？

一般的な image-to-image モデルである pix2pixHD, SPADE よりも品質が大幅に向上している点に注目
顔画像に対しての image-to-image 変換モデルになっているが、｛画像 encoder のバックボーンネットワークに顔認識用に事前学習された ResNet-IR を用いていること・FFHQ データセットで事前学習された StyleGAN2 を用いていること・Identity loss を採用していること｝以外は顔以外にも使えるアーキテクチャになっていると思われる。

6. 次に読むべき論文はあるか？

LPIPS loss
- The unreasonable effectiveness of deep features as a perceptual metric
ResNet-IR、Identity loss :
- Arcface:Additive angular margin loss for deep face recognition

Yagami360 / machine-learning-papers-survey

Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation #104

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献