Open shimopino opened 4 years ago
[arXiv:2010.08029] Non-saturating GAN training as divergence minimization
Matt Shannon, Ben Poole, Soroosh Mariooryad, Tom Bagby, Eric Battenberg, David Kao, Daisy Stanton, RJ Skerry-Ryan
2020-10-15
GANの学習は,実データの分布と生成データの分布の距離を最小化させていると捉えることができる.この分布間距離のMetricには,JS-divergenceやf-divergence,Wasserstein-1 divergenceなどが存在している.
今までの研究で理論的な解析が進められているが,GANでは経験的に,non-saturating lossを採用している.
もともと提案されている敵対的損失関数のGeneratorの項は,E[log(1-D(G(z)))]のを最小化させる形であり,Generatorの学習初期は生成される画像の質が低く,Discrimiantorは簡単に識別できてしまうためD(G(z))=0となってしまい勾配消失が発生してしまう.
そこでGeneratorの項を,E[-logD(G(z))]とすることで勾配消失が発生しないようにしている.これがnon-saturating lossになる.
本研究では,non-saturatingな学習方法は,f-divergence(KL(1/2p+1/2q||p))の最小化に近似することができることを示している.
論文へのリンク
[arXiv:2010.08029] Non-saturating GAN training as divergence minimization
著者・所属機関
Matt Shannon, Ben Poole, Soroosh Mariooryad, Tom Bagby, Eric Battenberg, David Kao, Daisy Stanton, RJ Skerry-Ryan
投稿日時(YYYY-MM-DD)
2020-10-15
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
GANの学習は,実データの分布と生成データの分布の距離を最小化させていると捉えることができる.この分布間距離のMetricには,JS-divergenceやf-divergence,Wasserstein-1 divergenceなどが存在している.
今までの研究で理論的な解析が進められているが,GANでは経験的に,non-saturating lossを採用している.
もともと提案されている敵対的損失関数のGeneratorの項は,E[log(1-D(G(z)))]のを最小化させる形であり,Generatorの学習初期は生成される画像の質が低く,Discrimiantorは簡単に識別できてしまうためD(G(z))=0となってしまい勾配消失が発生してしまう.
そこでGeneratorの項を,E[-logD(G(z))]とすることで勾配消失が発生しないようにしている.これがnon-saturating lossになる.
本研究では,non-saturatingな学習方法は,f-divergence(KL(1/2p+1/2q||p))の最小化に近似することができることを示している.
2.1 f-GAN振り返り
3. 技術や手法の"キモ"はどこにある?
4. どうやって有効だと検証した?
5. 議論はあるか?