[draft] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis

1. どんなもの？

GANで高品質な画像を生成するには学習に大規模なデータセットが要求されるが，実世界ではいつでも大規模データを構築できるわけではない．

また実世界で応用するには他にもいくつもの課題が存在する

本研究ではUnconditionalな条件での高解像度な画像生成に取り組んでおり，低い計算コストかつデータセットも少量な場合でも適用できる手法である．

より高解像度な画像を生成するためには，モデルを畳み込み層を積み重ねてより深くする必要があったため，深いモデルでも学習することのできるSkip-connectionを導入しているResNet構造のモデルが提案されているが，この構造はより大きな計算コストが必要となる．

本研究ではSkip-connection構造に2つの新しい概念を取り入れ，Skip-Layer Excitationモジュールとして提案している．

Channel-wise multiplication
- 通常のSkip-connectionでは，入出力部分で同一の空間解像度とチャンネル数が要求されており，計算コストがかかってしまう．
- 本研究では計算コストを削減するために空間解像度をなくし，Channel-wiseな計算によりSkip-connectionを実現している．
no spatial-dimension
- 空間解像度が必要となくなったため，異なる解像度の特徴マップに対してもSkip-connectionを適用することが可能となる．

この2つの構造は以下の図にまとめられている．

上記の構造を数式化すると以下のようになる．要はより浅い層から得られた特徴マップを使用して，空間解像度の異なる深い層に対してSkip-connectionを適用することができる．

先行研究で提案されているSEモジュールと異なる点は，SEモジュールではあくまでの1つの特徴マップに対してSelf-gatingを計算するものであるが，SLEモジュールは特徴マップ間で計算を行っている点である．

Discriminatorへの正則化手法も提案している．手法としてはDiscriminatorを入力された画像から特徴量を抽出するEncoderとして捉え，小さなDecoderを複数使用して再構成損失を計算する方法である．

全体の構造は以下になる．

16ピクセルと8ピクセルの特徴マップに対してDecoderを適用する．それぞれのDecoderは4つの畳み込み層で構成されており，128ピクセルの画像を再構成するように学習を行う．

こうした画像全体に対する再構成損失と，全体から一部をCropさせた画像に対する再構成損失の正則化を加えることで，Discrimiantorが入力された画像の全体の特徴量やより細部の特徴量を抽出できるようになることが期待される．

敵対的損失関数に対してはSAGANなどと同様にヒンジ関数を採用している．

NVIDIA RTX 2080tiで学習を行う際の条件が以下になる．通常のStyleGANと比較して学習時間もVRAMも抑えられていることがわかる．

計算コストを低減できていることに加えて，以下のように256ピクセルの解像度の画像を生成する際には，より少ない学習時間で，より改善されたFIDを達成できていることがわかる．

この傾向は，以下のように1024ピクセルの解像度の画像を生成する際も同様である．

また学習に使用するデータセットを増やしてみると，StyleGAN2のほうがFIDが改善されていることがわかる．ただし大きな差があるわけでもなく，計算コストを考慮すれば十分な結果に思える．

実際に生成された画像を比較してみる．各パネルの左下で示されているStyleGAN2が生成した画像と右側の本モデルが生成した画像を比較してみても，より高品質な画像が生成されていることがわかる．