Unsupervised text-to-image synthesis

YanlongDong, YingZhang, LinMa, ZhiWang, JieboLuo

2020-08-20

1. どんなもの？

画像を表現する文から直接画像を生成するText-To-Imageのタスクにおいて，近年様々なモデルが提案されている．また自然言語特有の曖昧性を排除するために，文ではなくシーングラフや物体のレイアウトなどを入力にして画像を生成するモデルも提案されている．

こうしたモデルに共通しているのは，モデルを学習させるために画像と紐づく文章やレイアウトなどの，膨大なペアのデータセットが必要になり，データの収集コストが非常に高くなってしまう．

しかしながらText-To-Imageタスクを教師なし学習でとこうとするといくつかの課題にぶつかってしまう．

本研究では教師なし学習を行う際に発生するこれらの課題に初めて取り組んだ論文である．

手法の大まかな説明は以下になる．

以下がAttnGANの大まかな構造になる．テキストをRNNに入力することで，各単語に合う意味を含んでいると考えられる各時間ステップでの隠れ層と，テキスト全体の意味を含む特徴量として最終ステップでの隠れ層をGeneratorに入力する．

多階層のGeneratorとDiscriminatorで学習をさせていきながら，テキストと生成された画像の意味の一貫性を計算するために，同じ特徴空間に落としてDAMSMで類似度の計算を行っている．

まずは互いに紐付いていないN枚の画像とM個の文が存在すると仮定する．