shimopino / papers-challenge

Paper Reading List I have already read
30 stars 2 forks source link

[draft] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis #221

Open shimopino opened 4 years ago

shimopino commented 4 years ago

論文へのリンク

[openreview.net] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis

著者・所属機関

投稿日時(YYYY-MM-DD)

1. どんなもの?

2. 先行研究と比べてどこがすごいの?

GANで高品質な画像を生成するには学習に大規模なデータセットが要求されるが,実世界ではいつでも大規模データを構築できるわけではない.

また実世界で応用するには他にもいくつもの課題が存在する

  1. Fine-Tuningのための事前学習に適したデータセットが存在しない
  2. Fine-Tuningでは性能が悪化する
  3. StyleGAN2やBigGANで1024ピクセルの画像を生成するには計算コストが大きい

本研究ではUnconditionalな条件での高解像度な画像生成に取り組んでおり,低い計算コストかつデータセットも少量な場合でも適用できる手法である.

image

3. 技術や手法の"キモ"はどこにある?

3.1 Skip-Layer Channel-Wise Excitation

より高解像度な画像を生成するためには,モデルを畳み込み層を積み重ねてより深くする必要があったため,深いモデルでも学習することのできるSkip-connectionを導入しているResNet構造のモデルが提案されているが,この構造はより大きな計算コストが必要となる.

本研究ではSkip-connection構造に2つの新しい概念を取り入れ,Skip-Layer Excitationモジュールとして提案している.

  1. Channel-wise multiplication
    • 通常のSkip-connectionでは,入出力部分で同一の空間解像度とチャンネル数が要求されており,計算コストがかかってしまう.
    • 本研究では計算コストを削減するために空間解像度をなくし,Channel-wiseな計算によりSkip-connectionを実現している.
  2. no spatial-dimension
    • 空間解像度が必要となくなったため,異なる解像度の特徴マップに対してもSkip-connectionを適用することが可能となる.

この2つの構造は以下の図にまとめられている.

image

上記の構造を数式化すると以下のようになる.要はより浅い層から得られた特徴マップを使用して,空間解像度の異なる深い層に対してSkip-connectionを適用することができる.

image

先行研究で提案されているSEモジュールと異なる点は,SEモジュールではあくまでの1つの特徴マップに対してSelf-gatingを計算するものであるが,SLEモジュールは特徴マップ間で計算を行っている点である.

image

3.2 Self-Supervised Discriminator

Discriminatorへの正則化手法も提案している.手法としてはDiscriminatorを入力された画像から特徴量を抽出するEncoderとして捉え,小さなDecoderを複数使用して再構成損失を計算する方法である.

image

全体の構造は以下になる.

image

16ピクセルと8ピクセルの特徴マップに対してDecoderを適用する.それぞれのDecoderは4つの畳み込み層で構成されており,128ピクセルの画像を再構成するように学習を行う.

こうした画像全体に対する再構成損失と,全体から一部をCropさせた画像に対する再構成損失の正則化を加えることで,Discrimiantorが入力された画像の全体の特徴量やより細部の特徴量を抽出できるようになることが期待される.

敵対的損失関数に対してはSAGANなどと同様にヒンジ関数を採用している.

image

4. どうやって有効だと検証した?

NVIDIA RTX 2080tiで学習を行う際の条件が以下になる.通常のStyleGANと比較して学習時間もVRAMも抑えられていることがわかる.

image

計算コストを低減できていることに加えて,以下のように256ピクセルの解像度の画像を生成する際には,より少ない学習時間で,より改善されたFIDを達成できていることがわかる.

image

この傾向は,以下のように1024ピクセルの解像度の画像を生成する際も同様である.

image

また学習に使用するデータセットを増やしてみると,StyleGAN2のほうがFIDが改善されていることがわかる.ただし大きな差があるわけでもなく,計算コストを考慮すれば十分な結果に思える.

image

実際に生成された画像を比較してみる.各パネルの左下で示されているStyleGAN2が生成した画像と右側の本モデルが生成した画像を比較してみても,より高品質な画像が生成されていることがわかる.

image

5. 議論はあるか?

shimopino commented 4 years ago

https://github.com/lucidrains/lightweight-gan