Sosuke115 / paper-reading

4 stars 1 forks source link

Proper Network Interpretability Helps Adversarial Robustness in Classification [ICML2020] #18

Open futakw opened 3 years ago

futakw commented 3 years ago

一言で表すと

Adversarial Robustnessを向上するために、モデルの解釈性という観点からアプローチし、SOTAを達成。 「AEにロバストなモデルは、元画像とAEに対して同じような解釈性をもつはずである。すなわち同じ解釈マップが生成されるはずである」と仮定し、Interpretability-Aware Robust Trainingを提案。

論文リンク

https://arxiv.org/abs/2006.14748

概要

・CNNモデルの解釈性と、AEに対するロバスト性の関係に注目。 ・CNNモデルを解釈する方法としてpixelの重要度をマッピングする手法が複数存在するが、元画像の解釈マップとAE画像の解釈マップは異なることが知られている。 ↓

スクリーンショット 2020-09-03 2 13 31

・この事実に注目し、逆に「AEにロバストなモデルは、元画像とAEに対して同じような解釈性をもつはずである。すなわち同じ解釈マップが生成されるはずである」と仮定し、Interpretability-Aware Robust Trainingを提案。

手法

・Adversarial Trainingをする中で、AE画像とNormal画像の解釈マップの不一致を小さくするようにロス関数を定義する。

結果

スクリーンショット 2020-09-03 2 17 09

・特にperturbationが大きい時、非常にいい精度!!SOTA!!

先行研究との差異

・解釈性とAEロバスト性という異なる分野を結びつけ、新たな手法を提案した。

手法のキモ

評価方法

議論

SOTA! やはり、解釈性good=人間にとって分かりやすい判断基準、であり、従って人間と似た特徴を利用するということか?

関連論文