Improving Text to Image Generation using Mode-seeking Function

Naitik Bhise, Zhenfei Zhang, Tien D. Bui

2020-08-19

1. どんなもの？

単純にDM-GANに、MS Regularization を適用しただけの論文

Text2Imageタスクで使用されているcGANには、ある特定の画像しか生成されないモード崩壊という現象が発生することが知られている。

これはcGANが、入力されるノイズベクトルを無視してしまい、クラス情報のみを使用するようになってしまうからでもある。

本研究では、モード崩壊を防ぐために、近い距離に存在する潜在ベクトルから同じモードの画像のみを生成されないようにする Mode Seeking Regularization を適用している。

本手法では単純にDM-GANに Mode Seeking Regularization を適用したものである。

この手法は、2つの潜在ベクトル間の距離と対応する出力画像間の距離の比率を最大化させる手法であり、一部のモードからしか画像が生成されないモード崩壊の現象を低減させることが可能となる。

CUBデータセットとCOCOデータセットを使用して、本手法の有効性を検証した。その結果、FIDが改善されていることがわかる。