ymym3412 / acl-papers

paper summary of Association for Computational Linguistics
184 stars 10 forks source link

Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning #245

Open ymym3412 opened 6 years ago

ymym3412 commented 6 years ago

0. 論文

Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning Hongge Chen, Huan Zhang, Pin-Yu Chen, Jinfeng Yi, Cho-Jui Hsieh

1. どんなもの?

画像から言語を生成するタスクにおいて、画像に摂動を加えて生成される言語を誘導するAdversarial Attackのアルゴリズム

2. 先行研究と比べてどこがすごい?

通常のクラス分類のAdversarial Attackと比べて、言語の生成では「可変長の中でどの単語をどの単語に誘導するか」という難しさがある

3. 技術や手法のキモはどこ?

画像に摂動を加えて生成される言語を誘導するAdversarial Attackのアルゴリズムを提案しキャプション生成のタスクで適用した。 「特定のキャプションを生成するように任意の画像に加える摂動の生成」と「特定のキーワードを含むキャプションを生成させる摂動の生成」を行う。 Encoder-Decoderの構造に対して適用できる目的関数ベースの摂動生成手法を考案した。 また生成した攻撃画像がほかのCNNモデルに対して適用できるかのTransferabilityも計測した。

image

image

4. どうやって有効だと検証した?

攻撃はおよそ95%~97%ほどで成功する。 また摂動を入れた画像ともと画像の誤差は小さく一目では見分けがつかないか?

5. 議論はある?

ノイズに強いCNNを作るのか、ノイズに強いRNNを作るのかでまたいろいろと手法が考えられそうだ。

6. 次に読むべき論文は?

FOIL it! Find One mismatch between Image and Language caption Ravi Shekhar, Sandro Pezzelle, Yauhen Klimovich, Aurelie Herbelot, Moin Nabi, Enver Sangineto, Raffaella Bernardi

ymym3412 commented 6 years ago

「FOIL it! Find One mismatch between Image and Language caption」のまとめ https://github.com/ymym3412/acl-papers/issues/18