e4exp / paper_manager_abstract

0 stars 0 forks source link

Do Feature Attribution Methods Correctly Attribute Features? #443

Open e4exp opened 3 years ago

e4exp commented 3 years ago

特徴の帰属法は、解釈可能な機械学習において非常に人気がある。 これらの手法は、入力された各特徴の重要性を表す帰属を計算することを目的としているが、「帰属」の定義についてはコンセンサスが得られていないため、多くの競合する手法が存在し、体系的な評価はほとんど行われていない。 また、帰属のグランドトゥルースがないため、代理指標に頼らざるを得ず、評価がさらに複雑になっている。 この問題を解決するために,我々は,新しいデータセットで訓練されたモデルが,帰属のグランドトゥルースを利用できるように,データセットの修正手順を提案する. 本論文では、3つの手法(saliency maps, rationales, and attention)を評価した。 これらの手法の欠陥を明らかにし、また、自然界におけるこれらの手法の正しさや信頼性を疑問視する声が高まっていることに、新たな視点を加える。 我々の評価手法はモデルに依存しないため、将来の特徴帰属手法の提案を評価するためにも使用できる。 コードはこちらのhttpsのURLから入手できます。

https://github.com/YilunZhou/feature-attribution-evaluation

e4exp commented 3 years ago

image

1 はじめに

X線画像から癌を検出するためのニューラルネットワークを学習するという課題を考えます。 データは、一般の病院と専門のがんセンターの2つのソースから来ています。 癌センターの画像には、より多くの癌症例が含まれています。 さらに、がんセンターでは、画像の左上隅に小さなタイムスタンプの透かしを入れています。 その結果、透かしの存在がモデルの予測に影響を与える可能性があります。 導入されたモデルが、透かしのような画像のアーチファクトではなく、本物の医療信号に基づいて予測を行うようにすることが重要です。 このようなアーチファクトが事前に分かっていれば、アーチファクトのある画像とない画像という反実例のペアでモデルを評価し、予測の違いを見てアーチファクトの影響を評価することができます。 しかし、現実的には、ほとんどのデータセットにおいて、すべての可能なアーチファクトを予測することはできません。 このような場合、saliency maps [4, 17, 21, 24, 27, 28]などの特徴帰属法を用いて、予測に最も重要な領域を特定し、そこに透かしなどの潜在的な人工物の証拠がないかどうかを検査します。 このような訓練と解釈のパイプラインは、データ駆動型の医療診断研究で広く採用されています[19, 25, 26]。 重要なのは、上記の評価は、特徴帰属法が正しく機能し、モデルに影響を与える特徴を見落とさないことに依存しているということです。

これは本当にそうなのでしょうか? 自然のデータセットで直接評価することは不可能です。 なぜなら、帰属方法に見つけてもらいたい偽りの相関は、定義上、未知だからです。 現在の評価では、この問題を回避するためにプロキシメトリクス[6, 11, 23]を用いようとしているが、残念ながらグランドトゥルースがないために様々な制限がある(項2.2参照)。 その代わりに,半自然のデータセットでこれらの手法を評価することを提案する. すなわち,自然のデータセットに明確な操作を加えたものである. この修正(図1)により,十分に高い性能を持つ分類器は,ある操作によって得られた特徴のみに依存しなければならないことが保証される. そして、このグランドトゥルースが与えられたときに、正しい帰属値を得るための望ましい条件(必要条件)を提示する。 例えば、モデルの判断に影響を与えないことがわかっている特徴は、強調表示されるべきではないとする。 データセットベースの評価は、モデルと帰属方法のどちらにも依存しない。 実験では、顕著性マップ、根拠モデル、および注意メカニズムを評価し、いくつかの失敗を確認した。 このような失敗の理由を議論し、改善の方向性を提案する。

e4exp commented 3 years ago

8 結論

特徴帰属法は,モデルの推論過程を忠実に反映することが重要であるが,グランドトゥルースの知識がなければ評価は困難である。 本論文では、十分に高い性能を達成したモデルが、既知のよく定義された特徴のセットに依存しなければならないようなデータセット修正手順を提案した。 この保証により、アトリビューション手法を原理的に自動評価する道が開かれる。 我々の実験では、視覚および言語タスクにおいて、サリエンシーマップ、理論モデル、および注意メカニズムを評価し、それらの欠陥を明らかにした。 本評価の限界は、入力操作によってアーティファクトが生じやすい半自然データセットを用いていることであり、自然データセットでは特定された問題はそれほど深刻ではないかもしれない。 しかし、この修正プロセスは、異なるソースからの画像における電子透かしの有無など、現実的なデータセットの破損を表しています。 さらに、帰属方法の限界を慎重に検討し、実務者にその旨を伝える必要がある。