shimopino / papers-challenge

Paper Reading List I have already read
30 stars 2 forks source link

Cycle Text-To-Image GAN with BERT #58

Open shimopino opened 4 years ago

shimopino commented 4 years ago

論文へのリンク

[arXiv:2003.12137] Cycle Text-To-Image GAN with BERT

著者・所属機関

Trevor Tsue, Samir Sen, Jason Li

投稿日時(YYYY-MM-DD)

2020-03-26

1. どんなもの?

従来のAttentionベースのGANでは単語ベクトルから画像へのAttentionを計算していた。本研究では、画像から単語へのAttentionを導入し、単語ベクトルを抽出する際にBERTを使用することで大幅な精度の改善に成功した。

image

2. 先行研究と比べてどこがすごいの?

Text-To-Imageタスクで高い精度を達成しているMirrorGANにはいくつかの改善余地が存在している。1つ目は損失関数として画像からテキストを再構成するCycle構造ではないこと、2つ目は使用しているデータセットに対して0から言語モデルを学習させていることである。

本研究ではCycle損失関数と最新の自然言語処理モデルを導入した。

あまり新規性はない。

3. 技術や手法の"キモ"はどこにある?

基本的には複数の論文で提案されている内容を1つにまとめている。以下に採用している機構を載せる。

以下がAttnGANの構造である。損失関数を計算する際には単語ベクトルと画像ベクトルの類似度を計算するDAMSMを利用している。

image

本研究で提案しているモデルはMirrorGANをベースにしている。MirrorGANでは、生成された画像に対してキャプションを再生成し、元のキャプションとの違いをクロスエントロピーで計算している。

image

4. どうやって有効だと検証した?

以下がAttnGANとの比較結果である。

image

IS(Inception Score)は以下。

image

5. 議論はあるか?

6. 次に読むべき論文はあるか?

論文情報・リンク

shimopino commented 4 years ago

https://github.com/suetAndTie/cycle-image-gan

shimopino commented 4 years ago

正直なところこんな内容で論文にするんかいという感想