Open ymym3412 opened 6 years ago
Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning Hongge Chen, Huan Zhang, Pin-Yu Chen, Jinfeng Yi, Cho-Jui Hsieh
画像から言語を生成するタスクにおいて、画像に摂動を加えて生成される言語を誘導するAdversarial Attackのアルゴリズム
通常のクラス分類のAdversarial Attackと比べて、言語の生成では「可変長の中でどの単語をどの単語に誘導するか」という難しさがある
画像に摂動を加えて生成される言語を誘導するAdversarial Attackのアルゴリズムを提案しキャプション生成のタスクで適用した。 「特定のキャプションを生成するように任意の画像に加える摂動の生成」と「特定のキーワードを含むキャプションを生成させる摂動の生成」を行う。 Encoder-Decoderの構造に対して適用できる目的関数ベースの摂動生成手法を考案した。 また生成した攻撃画像がほかのCNNモデルに対して適用できるかのTransferabilityも計測した。
攻撃はおよそ95%~97%ほどで成功する。 また摂動を入れた画像ともと画像の誤差は小さく一目では見分けがつかないか?
ノイズに強いCNNを作るのか、ノイズに強いRNNを作るのかでまたいろいろと手法が考えられそうだ。
FOIL it! Find One mismatch between Image and Language caption Ravi Shekhar, Sandro Pezzelle, Yauhen Klimovich, Aurelie Herbelot, Moin Nabi, Enver Sangineto, Raffaella Bernardi
「FOIL it! Find One mismatch between Image and Language caption」のまとめ https://github.com/ymym3412/acl-papers/issues/18
0. 論文
Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning Hongge Chen, Huan Zhang, Pin-Yu Chen, Jinfeng Yi, Cho-Jui Hsieh
1. どんなもの?
画像から言語を生成するタスクにおいて、画像に摂動を加えて生成される言語を誘導するAdversarial Attackのアルゴリズム
2. 先行研究と比べてどこがすごい?
通常のクラス分類のAdversarial Attackと比べて、言語の生成では「可変長の中でどの単語をどの単語に誘導するか」という難しさがある
3. 技術や手法のキモはどこ?
画像に摂動を加えて生成される言語を誘導するAdversarial Attackのアルゴリズムを提案しキャプション生成のタスクで適用した。 「特定のキャプションを生成するように任意の画像に加える摂動の生成」と「特定のキーワードを含むキャプションを生成させる摂動の生成」を行う。 Encoder-Decoderの構造に対して適用できる目的関数ベースの摂動生成手法を考案した。 また生成した攻撃画像がほかのCNNモデルに対して適用できるかのTransferabilityも計測した。
4. どうやって有効だと検証した?
攻撃はおよそ95%~97%ほどで成功する。 また摂動を入れた画像ともと画像の誤差は小さく一目では見分けがつかないか?
5. 議論はある?
ノイズに強いCNNを作るのか、ノイズに強いRNNを作るのかでまたいろいろと手法が考えられそうだ。
6. 次に読むべき論文は?
FOIL it! Find One mismatch between Image and Language caption Ravi Shekhar, Sandro Pezzelle, Yauhen Klimovich, Aurelie Herbelot, Moin Nabi, Enver Sangineto, Raffaella Bernardi