Adversarial Examples are not Bugs, they are Features [2019]

論文リンク

https://papers.nips.cc/paper/8307-adversarial-examples-are-not-bugs-they-are-features.pdf

概要

・Adversarial Examplesになぜ脆弱なのか、という問いに対する分析論文。・非常に重要な示唆を行った面白い論文。

手法

説明が難しいので詳しくは論文参照。まず特徴量を以下の3種類に分類する。①有効な特徴量、②ロバストかつ有効な特徴量、③有効だがロバストではない特徴量。（有効＝正解ラベルのco-relationが大きいfeature）（ロバスト＝inputに摂動を加えても変化しないfeature）＜実験１＞ロバストな特徴だけをもつRobust Datasetと、ノンロバストな特徴だけをもつNon-robust datasetを構築。それぞれで学習させ、normal, adversarialそれぞれに対する精度を見る。＜実験２＞ robust featureは「犬」でありnon-robust featureは「猫」であるようなAEに対し、正解ラベルを「猫」としたデータセットを構築し、学習させる。

結果

＜実験１＞・non-robust featureは、高いnormal accuracyを得るのに十分な特徴だった！

＜実験２＞・学習データには、人間の目に猫に見える画像は「猫」ラベルがついておらずnon-robust featureだけ猫である画像があった。しかし、実際に猫の画像を与えると「猫」と判定することができた。 →猫のnon-robust featureをしっかり学んでいた。・モデルは、non-robust featureに汎化することができる！

主張

・AEに対する脆弱性はバグではない！ただ、non-robustな特徴量にしっかり汎化しているだけである。・AEがnon-robustなfeatureに依存している限り、根本的にXAI（説明可能なAI）を作ることは不可能。・non-robust featureを無視するようにモデルを仕向けるためには、何らかの方法でhuman prior、つまり人間に特有な特徴量の選択（重み付け）を行う必要がある。

議論

・非常に面白い観点からの指摘であり、AEをノイズとして除去しようとするのではなく、featureに対するhuman likeな priorを作る、という方向性が新たに指摘された気がする。・「ロバストな特徴量だけをもつ画像」の生成方法がなかなか特殊であり、本当に「ロバストな特徴量だけをもつ」のかは少し怪しいところはある。

Sosuke115 / paper-reading

Adversarial Examples are not Bugs, they are Features [2019] #14

論文リンク

概要

手法

結果

主張

議論

関連論文