shimopino / papers-challenge

Paper Reading List I have already read
30 stars 2 forks source link

Improving Text to Image Generation using Mode-seeking Function #206

Open shimopino opened 4 years ago

shimopino commented 4 years ago

論文へのリンク

[arXiv:2008.08976] Improving Text to Image Generation using Mode-seeking Function

著者・所属機関

Naitik Bhise, Zhenfei Zhang, Tien D. Bui

投稿日時(YYYY-MM-DD)

2020-08-19

1. どんなもの?

単純にDM-GANに、MS Regularization を適用しただけの論文

2. 先行研究と比べてどこがすごいの?

Text2Imageタスクで使用されているcGANには、ある特定の画像しか生成されないモード崩壊という現象が発生することが知られている。

これはcGANが、入力されるノイズベクトルを無視してしまい、クラス情報のみを使用するようになってしまうからでもある。

本研究では、モード崩壊を防ぐために、近い距離に存在する潜在ベクトルから同じモードの画像のみを生成されないようにする Mode Seeking Regularization を適用している。

3. 技術や手法の"キモ"はどこにある?

本手法では単純にDM-GANに Mode Seeking Regularization を適用したものである。

この手法は、2つの潜在ベクトル間の距離と対応する出力画像間の距離の比率を最大化させる手法であり、一部のモードからしか画像が生成されないモード崩壊の現象を低減させることが可能となる。

image

4. どうやって有効だと検証した?

CUBデータセットとCOCOデータセットを使用して、本手法の有効性を検証した。その結果、FIDが改善されていることがわかる。

image

image

5. 議論はあるか?