Open shimopino opened 4 years ago
[arXiv:2008.08976] Improving Text to Image Generation using Mode-seeking Function
Naitik Bhise, Zhenfei Zhang, Tien D. Bui
2020-08-19
単純にDM-GANに、MS Regularization を適用しただけの論文
Text2Imageタスクで使用されているcGANには、ある特定の画像しか生成されないモード崩壊という現象が発生することが知られている。
これはcGANが、入力されるノイズベクトルを無視してしまい、クラス情報のみを使用するようになってしまうからでもある。
本研究では、モード崩壊を防ぐために、近い距離に存在する潜在ベクトルから同じモードの画像のみを生成されないようにする Mode Seeking Regularization を適用している。
本手法では単純にDM-GANに Mode Seeking Regularization を適用したものである。
この手法は、2つの潜在ベクトル間の距離と対応する出力画像間の距離の比率を最大化させる手法であり、一部のモードからしか画像が生成されないモード崩壊の現象を低減させることが可能となる。
CUBデータセットとCOCOデータセットを使用して、本手法の有効性を検証した。その結果、FIDが改善されていることがわかる。
論文へのリンク
[arXiv:2008.08976] Improving Text to Image Generation using Mode-seeking Function
著者・所属機関
Naitik Bhise, Zhenfei Zhang, Tien D. Bui
投稿日時(YYYY-MM-DD)
2020-08-19
1. どんなもの?
単純にDM-GANに、MS Regularization を適用しただけの論文
2. 先行研究と比べてどこがすごいの?
Text2Imageタスクで使用されているcGANには、ある特定の画像しか生成されないモード崩壊という現象が発生することが知られている。
これはcGANが、入力されるノイズベクトルを無視してしまい、クラス情報のみを使用するようになってしまうからでもある。
本研究では、モード崩壊を防ぐために、近い距離に存在する潜在ベクトルから同じモードの画像のみを生成されないようにする Mode Seeking Regularization を適用している。
3. 技術や手法の"キモ"はどこにある?
本手法では単純にDM-GANに Mode Seeking Regularization を適用したものである。
この手法は、2つの潜在ベクトル間の距離と対応する出力画像間の距離の比率を最大化させる手法であり、一部のモードからしか画像が生成されないモード崩壊の現象を低減させることが可能となる。
4. どうやって有効だと検証した?
CUBデータセットとCOCOデータセットを使用して、本手法の有効性を検証した。その結果、FIDが改善されていることがわかる。
5. 議論はあるか?