wisteria2gp / DataScience_survey

0 stars 0 forks source link

Variational Conditional GAN for Fine-grained Controllable Image Generation #25

Open golden77777 opened 4 years ago

golden77777 commented 4 years ago

一言でいうと

潜在変数獲得部分に「変分推論」を導入することで、生成画像の制御を可能にしたGAN。

論文リンク

http://proceedings.mlr.press/v101/hu19a/hu19a.pdf

著者/所属機関

Mingqi Hu mingq@seu.edu.cn Southeast University, Nanjing 211189, China Deyu Zhou d.zhou@seu.edu.cn Southeast University, Nanjing 211189, China Yulan He yulan.he@warwick.ac.uk University of Warwick, Coventry CV4 7AL, UK

投稿日付(yyyy/MM/dd)

ACML 2019

概要

条件付きGAN(C-GAN)の新たなフレームワーク。条件付きベクトル(クラスラベル)とノイズを同時に入力とし、潜在変数の確率分布を求めるために変分推論を適用する。これにより、クラスラベルの意味を反映した画像生成を、条件付き尤度関数の最大化として定式化することが可能となる。このフレームワークを適用することで、従来手法と比較し、よりクラスラベルの意図を反映した画像の生成が可能となった。

新規性・差分

生成分布の獲得のために、「変分推論」を活用していること。

手法

アーキテクチャ全体像は下の通り。

スクリーンショット 2019-12-03 22 42 46

Encoderネットワークでは、まずノイズφ、ラベルcを受け取り、それらを潜在変数zとして符号化する。
Decoderネットワークでは、変分推論により潜在変数zが与えられた実画像xの分布を学習する。具体的な学習として、クラスラベルに基づく条件付き尤度関数の最大化を行う。

スクリーンショット 2019-12-03 22 41 36

Discriminatorネットワークでは、１、２のEncoder-Decoderネットワーク(変分推論によるフレームワーク)によって生成された画像と本物画像との判別を行う。

結果

DCGAN、LSGAN、AC-GAN、WGAN、WGAN-GP、CVAE-GAN、SNHGAN-Projと比較した結果、Inception score (IS)、Frechet Inception distance (FID)の両面で提案手法が最も精度が高いことを示した。

スクリーンショット 2019-12-03 22 58 38

クラスラベルに基づく画像生成では、(a) CVAE、(b) Concat-CGAN、(c) CBN-CGAN、(d) CVAE-GANとの比較の結果、最も鮮明な画像の生成に成功している。

スクリーンショット 2019-12-03 23 06 12

また、従来のGANでは困難であった、入力された長文よりその意味を正確に反映し、かつ鮮明な画像の生成にも成功している。

スクリーンショット 2019-12-03 23 07 19

コメント

生成画像に方向性を与えられるGANという意味ではかなり注目に値すると思う。自分の思い通りの画像を作れるのでいろんな活用方法がありそう