Proper Network Interpretability Helps Adversarial Robustness in Classification [ICML2020]

一言で表すと

Adversarial Robustnessを向上するために、モデルの解釈性という観点からアプローチし、SOTAを達成。「AEにロバストなモデルは、元画像とAEに対して同じような解釈性をもつはずである。すなわち同じ解釈マップが生成されるはずである」と仮定し、Interpretability-Aware Robust Trainingを提案。

論文リンク

https://arxiv.org/abs/2006.14748

概要

・CNNモデルの解釈性と、AEに対するロバスト性の関係に注目。・CNNモデルを解釈する方法としてpixelの重要度をマッピングする手法が複数存在するが、元画像の解釈マップとAE画像の解釈マップは異なることが知られている。 ↓

・この事実に注目し、逆に「AEにロバストなモデルは、元画像とAEに対して同じような解釈性をもつはずである。すなわち同じ解釈マップが生成されるはずである」と仮定し、Interpretability-Aware Robust Trainingを提案。

手法

・Adversarial Trainingをする中で、AE画像とNormal画像の解釈マップの不一致を小さくするようにロス関数を定義する。

結果

・特にperturbationが大きい時、非常にいい精度！！SOTA！！

先行研究との差異

・解釈性とAEロバスト性という異なる分野を結びつけ、新たな手法を提案した。

手法のキモ

評価方法

議論

SOTA！やはり、解釈性good＝人間にとって分かりやすい判断基準、であり、従って人間と似た特徴を利用するということか？

Sosuke115 / paper-reading