shimopino / papers-challenge

Paper Reading List I have already read
30 stars 2 forks source link

Unsupervised text-to-image synthesis #224

Closed shimopino closed 4 years ago

shimopino commented 4 years ago

論文へのリンク

[Pattern Recognition] Unsupervised text-to-image synthesis

著者・所属機関

YanlongDong, YingZhang, LinMa, ZhiWang, JieboLuo

投稿日時(YYYY-MM-DD)

2020-08-20

1. どんなもの?

2. 先行研究と比べてどこがすごいの?

画像を表現する文から直接画像を生成するText-To-Imageのタスクにおいて,近年様々なモデルが提案されている.また自然言語特有の曖昧性を排除するために,文ではなくシーングラフや物体のレイアウトなどを入力にして画像を生成するモデルも提案されている.

こうしたモデルに共通しているのは,モデルを学習させるために画像と紐づく文章やレイアウトなどの,膨大なペアのデータセットが必要になり,データの収集コストが非常に高くなってしまう.

しかしながらText-To-Imageタスクを教師なし学習でとこうとするといくつかの課題にぶつかってしまう.

  1. 人手で作成された画像とテキストのペアなしに,どうやってモデルを学習させるのか
  2. 入力されたテキストに含まれる詳細情報(色など)を,どのように生成画像に反映させるのか
  3. 画像が高品質であり,入力テキストとも意味があっていることをどのように保証するのか

本研究では教師なし学習を行う際に発生するこれらの課題に初めて取り組んだ論文である.

手法の大まかな説明は以下になる.

3. 技術や手法の"キモ"はどこにある?

3.1 背景

以下がAttnGANの大まかな構造になる.テキストをRNNに入力することで,各単語に合う意味を含んでいると考えられる各時間ステップでの隠れ層と,テキスト全体の意味を含む特徴量として最終ステップでの隠れ層をGeneratorに入力する.

多階層のGeneratorとDiscriminatorで学習をさせていきながら,テキストと生成された画像の意味の一貫性を計算するために,同じ特徴空間に落としてDAMSMで類似度の計算を行っている.

image

3.2 Pseudo image-text pair generation

まずは互いに紐付いていないN枚の画像とM個の文が存在すると仮定する.

image

image

3.3 Visual concept discrimination

image

3.4 Global semantic consistency with respect to real sentences

3.5 Training

4. どうやって有効だと検証した?

5. 議論はあるか?

shimopino commented 4 years ago

https://github.com/dylls/Unsupervised_Text-to-Image_Synthesis