Concept Whitening for Interpretable Image Recognition

link : https://arxiv.org/abs/2002.01650.pdf

概要

Neural networkにおける重大な課題は中間層のユニットがどのような意味をもたらすのか我々人間には理解できないということである. 本論文では, Neural networkはConceptについて何をエンコードしているのか？という疑問の解決を目指す. 我々はconceptをconcept-vector [1]の利用なしで, どのように解きほぐすのかを知ることができるようなNeural networkが欲しいと考えている. そこで, concept whitening (CW)を提案する. ある層をCWに変更することで, 分類予測精度を損なうことなく, ある層でConceptを学習するのかを我々人間が理解することができる. また, CWは中間層でconceptが学習されることを強制させるものではない. むしろ, conceptに沿って潜在空間を揃えることを課す (It imposes the latent space to be aligned along the concepts.). 例えば, ネットワークの低層にCWを使用すると, "airplaine"のconceptは1つの軸に沿って表される. この軸に沿って画像を調べることにより, ネットワークが複雑なconceptである"airplaine"に使用する低位な抽象化を見つけることができる. この抽象化は, 青い背景で白 or シルバーの物体かもしれない. ただし, 標準的なNeural networkの下位層では"airplaine"の抽象化は"airplaine"の軸に沿ってではなく潜在空間全体に広がるため必ずしもこのような抽象化を見つけることはできない. それぞれの層でairplaineの軸に沿った画像を見ることでネットワークが複雑なairplaineをどのようにして徐々に表現しているかがわかる.

提案手法の利点

CWと特定の層を置き換えるだけで, conceptが特定の層でどのように表現されているかわかる
下位層と上位層でCWを取り入れることで, 分類するまでのconceptの変化を追うことができる
CWと置き換えても, 置き換える前と比べて精度を損なわない

実験

以下は, CWを下位層または, 上位層に取り入れて, 各軸 (concept)に対してactivatedした上位の画像を表示したものである. スクリーンショット 2020-04-27 14 31 42

以下は, 2つのconceptのactivation valuesのpercentile rankである. グラフ上の数値はCWの深さである. CWが異なる層に適用されたときに与えられた画像のpercentile rankがどのように変化するのかを示している.

スクリーンショット 2020-04-27 14 37 51

[1] Kim, B., Wattenberg, M., Gilmer, J., Cai, C., Wexler, J., Viegas, F., and Sayres, R. (2017). Interpretability beyond feature attribution: Quantitative testing with concept activation vectors (tcav). arXiv preprint arXiv:1711.11279.

munema / survey

Concept Whitening for Interpretable Image Recognition #26

概要

提案手法の利点

実験