Open shimopino opened 4 years ago
[arXiv:2003.12137] Cycle Text-To-Image GAN with BERT
Trevor Tsue, Samir Sen, Jason Li
2020-03-26
従来のAttentionベースのGANでは単語ベクトルから画像へのAttentionを計算していた。本研究では、画像から単語へのAttentionを導入し、単語ベクトルを抽出する際にBERTを使用することで大幅な精度の改善に成功した。
Text-To-Imageタスクで高い精度を達成しているMirrorGANにはいくつかの改善余地が存在している。1つ目は損失関数として画像からテキストを再構成するCycle構造ではないこと、2つ目は使用しているデータセットに対して0から言語モデルを学習させていることである。
本研究ではCycle損失関数と最新の自然言語処理モデルを導入した。
あまり新規性はない。
基本的には複数の論文で提案されている内容を1つにまとめている。以下に採用している機構を載せる。
以下がAttnGANの構造である。損失関数を計算する際には単語ベクトルと画像ベクトルの類似度を計算するDAMSMを利用している。
本研究で提案しているモデルはMirrorGANをベースにしている。MirrorGANでは、生成された画像に対してキャプションを再生成し、元のキャプションとの違いをクロスエントロピーで計算している。
以下がAttnGANとの比較結果である。
IS(Inception Score)は以下。
https://github.com/suetAndTie/cycle-image-gan
正直なところこんな内容で論文にするんかいという感想
論文へのリンク
[arXiv:2003.12137] Cycle Text-To-Image GAN with BERT
著者・所属機関
Trevor Tsue, Samir Sen, Jason Li
投稿日時(YYYY-MM-DD)
2020-03-26
1. どんなもの?
従来のAttentionベースのGANでは単語ベクトルから画像へのAttentionを計算していた。本研究では、画像から単語へのAttentionを導入し、単語ベクトルを抽出する際にBERTを使用することで大幅な精度の改善に成功した。
2. 先行研究と比べてどこがすごいの?
Text-To-Imageタスクで高い精度を達成しているMirrorGANにはいくつかの改善余地が存在している。1つ目は損失関数として画像からテキストを再構成するCycle構造ではないこと、2つ目は使用しているデータセットに対して0から言語モデルを学習させていることである。
本研究ではCycle損失関数と最新の自然言語処理モデルを導入した。
あまり新規性はない。
3. 技術や手法の"キモ"はどこにある?
基本的には複数の論文で提案されている内容を1つにまとめている。以下に採用している機構を載せる。
以下がAttnGANの構造である。損失関数を計算する際には単語ベクトルと画像ベクトルの類似度を計算するDAMSMを利用している。
本研究で提案しているモデルはMirrorGANをベースにしている。MirrorGANでは、生成された画像に対してキャプションを再生成し、元のキャプションとの違いをクロスエントロピーで計算している。
4. どうやって有効だと検証した?
以下がAttnGANとの比較結果である。
IS(Inception Score)は以下。
5. 議論はあるか?
6. 次に読むべき論文はあるか?
論文情報・リンク