StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks - Githubissues

Yagami360 / machine-learning-papers-survey

機械学習関連の論文Survey用レポジトリ

135 stars 6 forks source link

StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks #9

Open Yagami360 opened 5 years ago

Yagami360 commented 5 years ago

0. 論文情報・リンク

論文リンク：https://arxiv.org/abs/1612.03242
公開日時：2016/12/10
被引用数（記事作成時点）：xxx 件
実装コード：https://github.com/hanzhanggit/StackGAN

1. どんなもの？

テキストの内容を反映した画像を自動生成する text-to-image タスクにおいて、"Stage-I GAN" と "Stage-II GAN" の２段階の cGAN ベースのアーキテクチャにより、テキストの詳細まで反映した画像を生成出来るように実現した text-to-image 手法。

2. 先行研究と比べてどこがすごいの？

従来の text-to-image 手法では、テキストの大まかな内容を反映することがは出来ていたが、詳細な内容を画像に反映させることが出来なかった。本手法では、まず、"Stage-I GAN" で低解像度の大まかな画像を生成し、その後に "Stage-II GAN" で高解像度の画像を生成するという２段階のプロセスを経由するとこで、テキストの詳細な内容も画像に反映出来るようにしている。
又、従来の手法では学習が不安定であったが、本手法では "Conditioning Augmentation (CA)" で潜在空間の滑らかさを向上させることで、生成画像の多様性を向上し、GANの学習を安定化させている。

3. 技術や手法の"キモ"はどこにある？

以下の "Conditioning Augmentation (CA)" 及び "Stage-I GAN" と "Stage-II GAN" という２段階のプロセスから構成されるアーキテクチャを用いることで、高解像度の詳細な画像を生成出来るようにし、又、生成画像の多様性を向上し、GANの学習を安定化させている。
- Conditioning Augmentation (CA) : 従来のテキスト情報の潜在空間への埋め込み手法では、埋め込みは非線形写像で行われ、それ故に潜在空間が高次元になり、多様体の不連続性が生じていた。このことは、生成器の学習がうまく行かない原因となっていた。本手法では、この問題を解決するために、独立した正規分布 N( μ(φ_t), Σ(φ_t) ) からランダムサンプリングした c^_0 を、後段の cGANの生成器の条件入力として入力するようにする。（φ:事前学習されたエンコーダーによる埋め込み写像、μ：平均値、Σ：共分散行列）そして、後段の Stage-I GAN, Stage-II GAN の生成器の損失関数に、以下のような KL ダイバージェンスの損失関数を追加する。これにより、（真の確率分布とモデルの確率分布）の潜在空間（多様体）の滑らかさが向上し、その結果として生成画像の多様性が向上し、GANの学習が安定化する。
- Stage-I GAN : 指定されたテキストの内容に基づいて、大まかな形状の低解像度の画像を生成する。アーキテクチャは、cGAN ベースで、損失関数は以下のような adversial loss と学習を安定化させるための KLダイバージェンスで定義される。
- Stage-II GAN : Stage-I GAN が生成した低解像度の画像とテキスト内容を再度入力として受け取り、詳細な高解像の画像の生成する。アーキテクチャは cGAN ベース。内部のネットワーク構成は、ResNet ベース。損失関数は以下のような adversial loss と学習を安定化させるための KLダイバージェンスで定義される。
※ 先に Stage-I GAN で低解像度の画像を生成することで、Stage-I GAN での低解像度でのモデルの分布の台が、真の分布の台と交わる可能性が高まるので、後の Stage-II GAN で詳細な高解像度の画像を生成出来るようになる。（この辺の話は、別記事「生成モデル | WGAN 」の項目参照）

4. どうやって有効だと検証した？

従来の手法と比較して、定性的にも定量的にも、本手法がより品質の高い画像を生成出来ていることを実験的に検証している。

また、StageI-GAN の効果と Stage-II の効果を段階的に検証している。

5. 議論はあるか？

Stage-I GAN で画像全体に渡っての大まかな形状をはじめに捉え、その後 Stage-II GAN で画像の詳細を捉えていくプロセスは、PGGAN などで低解像度の画像から生成して徐々に高解像度の画像を生成するプロセスと似ている。このような低解像度→高解像度（＝画像全体大域的→画像の局所的詳細）という段階的な画像生成プロセスは、GAN全般で有効なアプローチと考えられる。

6. 次に読むべき論文はあるか？

xxx