Training Generative Adversarial Networks with Limited Data / StyleGAN2 with adaptive discriminator augmentation (ADA)

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/2006.06676
公開日時：2020/06/11
組織 : NVIDIA
被引用数（記事作成時点）：5 件
実装コード（TensorFlow）：https://github.com/NVlabs/stylegan2-ada
- ADA の部分 : https://github.com/NVlabs/stylegan2-ada/blob/main/training/augment.py
Publication :

1. どんなもの？

StyleGAN2 のアーキテクチャをベースに、識別器の入力に対して、モデルの過学習状態指標に依存して適合的に変化するデータオーギュメントである ADA [adaptive discriminator augmentation] を行うことで、少数の学習用データセットでもうまく高品質の画像生成することを実現した GAN ベースの noize-to-image モデル

2. 先行研究と比べてどこがすごいの？

GAN により画像生成モデルでは、一般的に多量の学習用データが必要であるが、このような多量の学習用データの収集は困難であることが多いという問題が存在する。学習用データ不足に対する一般的な対策は、学習用データのデータオーギュメント（DA）であるが、DAの程度や確率をうまく調整しないと、入力画像に対してのDAがそのまま出力画像に "漏れる [leak]"（例えば、回転DAをした結果出力画像も回転してしまうなど）ケースが発生する。本手法では、StyleGAN 2 のアーキテクチャをベースにして、識別器の入力に対して、モデルの過学習状態指標によって DA する確率が適合的に変形する ADA [adaptive discriminator augmentation] を行うことで、ハイパーチューニングなしに最適な DA が行われるようにして、このような DA の漏れ問題を軽減し、結果として少数の学習用データセットでも品質の高い生成画像を生成出来るようにしている。

3. 技術や手法の"キモ"はどこにある？

GAN モデルにおける過学習とDA効果の分析本手法では、まずGAN モデルにおける過学習とDA による出力画像への漏れ [leak] 問題の分析を行っている。
- 学習用データの枚数と GAN モデルの過学習
  上図より、GAN モデルでは、他の一般的な機械学習モデルと同様に、学習用データの枚数が少ないほど過学習状態に陥りやすいことがわかる。またモデルの過学習状態は、学習用データに対しての識別器の出力と検証用データセットに対しての識別器の出力が近いているかどうかである程度把握出来ることがわかる。
- DA による出力画像への漏れ [leak] 問題
  上図より、DAの種類によっては（回転DAや色調DA）、DAする確率 p を大きくしすぎると入力画像に施したDAが出力画像にも漏れていることがわかる。上図より、最適なDA確率 p は、DAの種類や学習用データセットの枚数に大きく依存する（特に学習用データセットの枚数に大きく依存）ことがわかる。
本手法のアーキテクチャと ADA
上記分析で得られた知見に基づき、本手法では、上図右のように StyleGAN 2のアーキテクチャをベースにして、識別器の入力に対して、モデルの過学習状態に依存して適合的に変化するデータオーギュメントである ADA [adaptive discriminator augmentation] を行うモデルを提案している。 ※ StyleGAN2 をベースのアーキテクチャにしているのは、学習用データセット間での品質のバラツキが小さく、ADA 有無により評価が容易だったため。 ※ GAN モデルにおいて、識別器の入力にも DA を行い出力画像への漏れ問題を軽減する先行研究として、上図左のように、論文「Improved consistency regularization for GANs」で提案されている bCR [balanced consistency regularization] が存在する。この bCR では、識別器の損失関数に正解画像と生成画像の一貫性を保証する制限項を加えているが、生成器には制限項を加えていないため、DAでの出力画像への漏れ問題を軽減できないケースが存在する。本手法では、bCR のように損失関数に制限項を加えるのではなくて、識別器の入力にDAを施すのみであるのが、bCR とは異なる。ここでモデルの過学習状態は、先の分析結果より、学習用データに対しての識別器の出力と検証用データセットに対しての識別器の出力が近づいているかどうかである程度把握出来た。本手法では、この知見に基づきモデルの過学習状態を以下の定量指標で評価する。（※ r→1 なるほど過学習状態が強い）そして、この値 r がある値（r=0.6）になるように、DA 確率 p を適合的に変化させる。上図は、DA する確率を fine-tuning して得られた固定値での最適DA確率 p と、上記 ADA [adaptive discriminator augmentation] での適合的なDA調整 r を比較した図である。 fine-tuning された固定値での最適DA確率 p（点線）よりも、ADA での適合的なDA調整 r （実線）のほうが、優れた FID スコアを実現していることがわかる。上段の図は ADA なしでの結果。下段図はADA ありでの結果。 ADA ありでは、学習用データセット数が少なくとも、過学習状態に陥りにくくなっており、少数の学習用データセットでもうまく学習出来るようになっていることがわかる。

4. どうやって有効だと検証した？

学習用データセット
bCR との比較検証
本手法（ADA）では、学習用データセットの枚数が少ない場合で特に FID スコアを大きく改善していることがわかる。また、本手法（ADA）ではDAによる生成画像での漏れが発生していないが、bCR では漏れが発生していることがわかる。 ADA と bCR を組み合わせることで、FID スコアを改善できている。
定量検証
本手法（ADA）では、少数の学習用データセット（左側）でも高品質の画像を生成できている

5. 議論はあるか？

StyleGAN2 をベースのアーキテクチャにしているが、モデルの過学習指標に依存して変化する適合的なDAや生成器と識別器の入力双方にDAを行う工夫は、他の GAN モデルでも適用できそう。（※ モデルの過学習指標が識別器の出力から計算されるので、識別器の存在する GAN モデルである必要はある）
StyleGAN2 をベースにしているため noize-to-image モデルになっている。そのため識別器のみにDAを行う構造になっているが、image-to-image モデルにした場合は、生成器と識別器双方に ADA を適用すればよいと思われる。

6. 次に読むべき論文はあるか？

Improved consistency regularization for GANs

7. 参考文献

[StyleGAN2] Analyzing and Improving the Image Quality of StyleGAN : https://github.com/Yagami360/MachineLearning-Papers_Survey/issues/52

Yagami360 / machine-learning-papers-survey

Training Generative Adversarial Networks with Limited Data / StyleGAN2 with adaptive discriminator augmentation (ADA) #108

0. 論文情報・リンク

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. 参考文献