Stage-I GAN :
指定されたテキストの内容に基づいて、大まかな形状の低解像度の画像を生成する。
アーキテクチャは、cGAN ベースで、損失関数は以下のような adversial loss と学習を安定化させるための KLダイバージェンスで定義される。
Stage-II GAN :
Stage-I GAN が生成した低解像度の画像とテキスト内容を再度入力として受け取り、詳細な高解像の画像の生成する。
アーキテクチャは cGAN ベース。内部のネットワーク構成は、ResNet ベース。
損失関数は以下のような adversial loss と学習を安定化させるための KLダイバージェンスで定義される。
※ 先に Stage-I GAN で低解像度の画像を生成することで、Stage-I GAN での低解像度でのモデルの分布の台が、真の分布の台と交わる可能性が高まるので、後の Stage-II GAN で詳細な高解像度の画像を生成出来るようになる。(この辺の話は、別記事「生成モデル | WGAN 」の項目参照)
Stage-I GAN で画像全体に渡っての大まかな形状をはじめに捉え、その後 Stage-II GAN で画像の詳細を捉えていくプロセスは、PGGAN などで低解像度の画像から生成して徐々に高解像度の画像を生成するプロセスと似ている。
このような低解像度→高解像度(=画像全体大域的→画像の局所的詳細)という段階的な画像生成プロセスは、GAN全般で有効なアプローチと考えられる。
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
以下の "Conditioning Augmentation (CA)" 及び "Stage-I GAN" と "Stage-II GAN" という2段階のプロセスから構成されるアーキテクチャを用いることで、高解像度の詳細な画像を生成出来るようにし、又、生成画像の多様性を向上し、GANの学習を安定化させている。
Conditioning Augmentation (CA) : 従来のテキスト情報の潜在空間への埋め込み手法では、埋め込みは非線形写像で行われ、それ故に潜在空間が高次元になり、多様体の不連続性が生じていた。このことは、生成器の学習がうまく行かない原因となっていた。 本手法では、この問題を解決するために、独立した正規分布 N( μ(φ_t), Σ(φ_t) ) からランダムサンプリングした c^_0 を、後段の cGANの生成器の条件入力として入力するようにする。(φ:事前学習されたエンコーダーによる埋め込み写像、μ:平均値、Σ:共分散行列) そして、後段の Stage-I GAN, Stage-II GAN の生成器の損失関数に、以下のような KL ダイバージェンスの損失関数を追加する。 これにより、(真の確率分布とモデルの確率分布)の潜在空間(多様体)の滑らかさが向上し、その結果として生成画像の多様性が向上し、GANの学習が安定化する。
Stage-I GAN : 指定されたテキストの内容に基づいて、大まかな形状の低解像度の画像を生成する。 アーキテクチャは、cGAN ベースで、損失関数は以下のような adversial loss と学習を安定化させるための KLダイバージェンスで定義される。
Stage-II GAN : Stage-I GAN が生成した低解像度の画像とテキスト内容を再度入力として受け取り、詳細な高解像の画像の生成する。 アーキテクチャは cGAN ベース。内部のネットワーク構成は、ResNet ベース。 損失関数は以下のような adversial loss と学習を安定化させるための KLダイバージェンスで定義される。
※ 先に Stage-I GAN で低解像度の画像を生成することで、Stage-I GAN での低解像度でのモデルの分布の台が、真の分布の台と交わる可能性が高まるので、後の Stage-II GAN で詳細な高解像度の画像を生成出来るようになる。(この辺の話は、別記事「生成モデル | WGAN 」の項目参照)
4. どうやって有効だと検証した?
5. 議論はあるか?
6. 次に読むべき論文はあるか?