image-to-image のタスクにおいて、PatchGAN 構造を持つ生成器と識別器をピラミッド型階層構造にしたマルチスケール構造で、1枚の学習用画像から多様な情報を取り出すことにより、"1枚の学習用画像のみ"から複数の高解像度で多様性のある画像を生成することを実現した GAN ベースの image-to-image 手法。
2. 先行研究と比べてどこがすごいの?
従来の GAN 手法では、多量の学習用データで学習を行ったモデルを用いて、(高品質で多様な)画像生成を行っていた。
本手法では、1枚の学習用画像から、PatchGAN 構造を持つ生成器と識別器をピラミッド型階層構造にしたマルチスケール構造で多様な情報を引き出すことにより、"1枚の学習用画像のみ"から複数の高解像度で多様性のある画像を生成することを実現している。
損失関数
本手法での学習は、先に述べたように、PGGAN のように、解像度が低いものから順に徐々に解像度スケールを大きくしながら行われるが、この際の各解像度スケールでの損失関数は、以下の式のように、対応している生成器 G_n と識別器 D_n での adversarial loss と reconstruction loss との線形結合で定義される。
- adversarial loss
adversarial loss の具体的な形としては、学習の安定性に優れた WGAN-gp での損失関数を使用する。
- reconstruction loss
この reconstruction loss は、本手法による image manipulation のタスクにおいて、元の画像を生成するような、潜在変数としての特定の入力ノイズの存在を保証するための損失関数になっている?
0. 論文情報・リンク
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
3. 技術や手法の"キモ"はどこにある?
マルチスケール構造
損失関数 本手法での学習は、先に述べたように、PGGAN のように、解像度が低いものから順に徐々に解像度スケールを大きくしながら行われるが、この際の各解像度スケールでの損失関数は、以下の式のように、対応している生成器 G_n と識別器 D_n での adversarial loss と reconstruction loss との線形結合で定義される。
4. どうやって有効だと検証した?
単一の学習用画像から、物体の形状を保存した高品質な画像を、様々な縦横幅やアスペクト比などで複数枚生成出来ていることを定性的に検証している。
様々な image-to-image タスク(超解像度化、画像編集など)に適用可能なアーキテクチャとなっていることを検証している。
超解像度
Paint-to-Image
Harmonization
Editing
Single Image Animation
5. 議論はあるか?
6. 次に読むべき論文はあるか?
7. 参考文献