Causal Interpretability for Machine Learning- Problems, Methods and Evaluation

Paper link : https://arxiv.org/abs/2003.03934 Author : Raha Moraffah, Mansooreh Karami, Ruocheng Guo, Adrienne Raglin, Huan Liu Conference : Arxiv 2020

1. Introduction

本論文は因果関係を用いた解釈法に焦点を当てた上で, 解釈性可能なモデルを紹介し, 現在の解釈性の評価について考察を行う (本論文が初めて). モデルの決定のまでのプロセスを理解することでモデルそのものを理解できると同時に, 予期せぬ動作を防ぐことができる. 我々は, 次の2つを保証することを目標とする. (a) 学習モデルの決定は社会的な利益に沿った規則に従う. (b) 分類器はデータのバイアスを捉えず, 人間の理解と一致 (compatible)する. 様々な説明法は大きく分けると, (1) 学習時に説明性を生成するtransparentな解釈法 (ex : Rule-Based model・Linear Regression・Disentangled Representation Learning)と (2) post-hocな解釈法(ex : Local Explanations・Saliency Maps・Example-Based Explanations・Influence Functions・Feature Visualization・Explaining by Base Interpretable Models)の2つに分類することができる. これらを伝統的解釈モデル(traditional interpretable models)と呼ぶ. 本論文では因果関係を捉えた解釈性のあるモデルである因果的解釈モデル(causal interpretable models)に焦点を当てる.

例えば, クレジットカードの例を考えてみる. 我々が答えを求めている質問は「ネットワークのi番目層のj番目の層を消去したら結果はどれほど変化するのか？ (Model-based)」「なぜこの決定は, AでなくBになったのか？(Example-based)」, 「ある入力を変化させて場合どのように決定が変化するのか？(Example-based)」, 「Aという決定はXが原因であるのか？(Example-based)」. これらの質問は相関のみを考慮してこのような説明を生み出すことのできない伝統的解釈モデルには答えられない. これは,これらのフレームワークが, ある要素を変更した場合, 予測ラベルがどのように変化するかを推定できないためである. これを克服するために反事実分析(counterfactual analysis)を活用する必要がある. 反事実分析では, 我々が観察していない, または観察できない想像上のシナリオを入力として与えた場合のモデルの出力を推測することを目指している.

2. AN OVERVIEW OF INTERPRETABILITY

本章では, 既存の解釈性モデルの概要を紹介する. 説明可能なモデルとして, ネットワークの動作を要約して (十分な精度を維持して？), ユーザーの信頼を獲得して, 決定の原因についての洞察を与えるモデルであると主張している人が存在する.

2.2 Traditional Interpretablity

伝統的解釈モデルはInherently interpretable modelsとPost-hoc interpretabilityの2つに分類することができる.

4. CAUSAL INTERPRETABLITY

SOTAな因果的解釈モデルを紹介する. Model-basedの解決策としては, あるニューロンにおいてACEを推定する. Example-basedに関しては, モデルをSCMとして定義する. これにより, 反事実分析が可能となる (特徴量の最小な変更).

スクリーンショット 2020-04-02 18 41 45

スクリーンショット 2020-04-02 18 42 01

また, 意思決定に公平性を組み込んだ指標を取り入れることも考慮されている.

5. PERFORMANCE EVALUATION

5.2.1 Interpretability Evaluation Metrics

評価方法として, 被験者を利用する方法と被験者を用いない手法が存在する. 被験者を用いない場合, どれだけ重要な特徴を選択できるか(前もって重要な特徴を知っている必要がある)・fidelity・一貫性 (同じラベルで似ている画像に対しては, 同様な説明を与えるか)

Counterfactual Explanations Evaluation Metrics

元の説明と事実に反する説明の距離や実行時間・多様性を元に評価される.

スクリーンショット 2020-04-02 20 28 03

スクリーンショット 2020-04-02 20 27 49

munema / survey