[Lightweight GAN] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis - Githubissues

Yagami360 / machine-learning-papers-survey

機械学習関連の論文Survey用レポジトリ

135 stars 6 forks source link

[Lightweight GAN] Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis #111

Open Yagami360 opened 3 years ago

Yagami360 commented 3 years ago

0. 論文情報・リンク

論文リンク：https://openreview.net/forum?id=1Fqg133qRaI
公開日時：2020/09/29
組織 :
被引用数（記事作成時点）：xxx 件
実装コード：https://github.com/lucidrains/lightweight-gan
実装コード&データセット：https://drive.google.com/drive/folders/1nCpr84nKkrs9-aVMET5h8gqFbUYJRPLR
Publication : ICLR 2021

1. どんなもの？

生成器に Skip-Layer Excitation module (SLE) の構造を採用することでモデルのパラメーター数を削減し、少ない学習用データセット数でもうまく学習出来るようにした noize-to-image での GAN モデル。

2. 先行研究と比べてどこがすごいの？

StyelGAN や SyleGAN2 では、非常に高品質の画像を生成できるものの、学習用データセットが多量に必要なる問題が存在する。本手法では、生成器には Skip-Layer Excitation module (SLE) の構造、識別器には reconstruction loss を採用することで、モデルのパラメーター数を削減し、結果として少ない学習用データセット数でもうまく学習出来るようしている
学習用データセット数が限られている場合において、現行の noize-to-image タスクでの SOTA である SyleGAN2 よりも、高品質の生成画像を生成することが可能になっている。

3. 技術や手法の"キモ"はどこにある？

生成器のアーキテクチャと Skip-Layer Excitation module (SLE) 一般的な議論として、より高解像度の画像生成を行うモデルはより深いネットワーク構造が必要となる。一方でより深いネットワークモデルではパラメーター数が増加するので、より多くの学習時間や学習用データセット数が必要になってくる。深いネットワークを効率的に学習するために、ResNet では skip connection の構造を採用しているが、依然として計算コストは高いままであり、また多くの学習用データセット数が必要になる。
本手法の生成器は上図のように、ResNet のような skip connection 構造を採用するが、ResNet のように同じ解像度での特徴マップを加算で結合して skip connection するはなくて、 skip connection 部の結合をチャンネル単位での乗算で行うようにした SLE [Skip-Layer Excitation module] の構造を採用している。これにより、異なる解像度での特徴マップ間を skip connection 出来るようになる。その結果、余分な conv 層がなくなることでモデルのパラメーター数が削減され、結果として少ない学習用データセット数でもうまく学習出来るようになる。 SLE での処理を定式化すると、以下のような式になる。
識別器のアーキテクチャと reconstruction loss
上図は、本手法での識別器のアーキテクチャを示した図である。本手法の識別器は、以下の式で定義される reconstruction loss により正則化される。この reconstruction loss では、以下のようにして計算する。 a. 16x16 の特徴マップ f_1 に対して random crop を行う。 b. 上記 ramdom crop と同じ範囲で正解画像を crop し、I_part を得る。 c. decoder ネットワーク G を用いて、crop された f1 から I'_part を生成し、8x8 の特徴マップ f2 から I′ を生成する． d. I'_part と I_part，I′ と I を一致させるように（＝reconstruction loss が最小にするように）、識別器 D と decoder G を学習する。この reconstruction loss での学習により、識別器 D は入力画像 x からより包括的な表現を抽出し、8 x 8 の特徴マップ f2 から大域的な情報を抽出し、16x16 の特徴マップから局所的な情報の抽出しながら学習出来るようになる。
損失関数ネットワーク全体の損失関数としては、Hinge loss での Adv loss + reconstruction loss を採用している。

4. どうやって有効だと検証した？

既存のモデルとの定性比較検証
学習用データセット数が限られている場合において、現行の noize-to-image タスクでの SOTA である SyleGAN2 よりも、高品質の生成画像を生成できている。
既存のモデルとの学習時間の定量比較検証
StyleGAN2 と比較して、学習時間が大幅に削減されている。
既存のモデルとの品質スコアの定量比較検証
学習用データセット数が限られている場合において、現行の noize-to-image タスクでの SOTA である SyleGAN2 よりも、優れた品質スコアを実現できている。 ※ 学習用データセット数が多い場合は、本手法よりも StyleGAN2 のほうが優れた品質スコアを実現していることに注意

5. 議論はあるか？

モデルのパラメーター数を少なくすることで、少ない学習用データセットでも学習出来るようにしているのが基本的なアイデア。モデルのパラメーター数を少なくための具体的な方法として、SLE [Skip-Layer Excitation module] の構造が採用されている。
noize-to-image での GAN モデルになっているが、SLE の構造を image-to-image のネットワーク構造に組み込めば、image-to-image にも適用できそうなアーキテクチャになっている。とはいえ、image-to-image に組み込んだ場合十分に効果（＝学習用データセット数を少なく出来る効果）を発揮するかは不明
この論文で提案されているネットワーク構造をベースに、他の DA を工夫した few-shot leaning 手法を組み合わせると更に少ない学習用データセットでもうまく学習出来るようになるかも。
学習用データセット数が多い場合は、本手法よりも StyleGAN2 のほうが優れた品質スコアを実現していることに注意

6. 次に読むべき論文はあるか？

xxx

7. 参考文献

xxx