Attention is not Explanation

Attention is not Explanation Sarthak Jain, Byron C. Wallace
Accepted as NAACL 2019 Long Paper. Draft Version https://arxiv.org/abs/1902.10186

github: https://github.com/successar/AttentionExplanation

概要

アテンション機構はNLPでも広く使われており，入力に対するアテンションを実現する．しかし，アテンションの重みと出力の関係性は不明瞭である．本研究では，様々なNLPタスク（二値テキスト分類，QA, NLI）においてアテンションの重みが，予測に対する意味のある"説明"を付与できているか調べた．実験の結果，そうではないということを見つけた．学習されたアテンションと，特徴的重要性の勾配ベースの尺度としばしば相関がなく，アテンションがまったく異なる場合においても同様の予測をできていたりした．

標準的なアテンション機構は，意味のある説明を成している，という風に取り扱うことに本論では一石を投じる．

イントロと動機

アテンション機構はBahdanau 2014あたりから．NLPにおいても広く使われている．またアテンションはモデルに解釈性を与えるものとして，しばしば性能説明に利用されてきた．しかし，本当にアテンションがモデルの出力に対して相関しているという想定は，ちゃんと評価されていない．これは問題である．

そこで我々は，アテンション，入力，出力の関連性を調査した．それにあたり，アテンションは出力に対して説明性を提供できるという下記のような想定を置いた．

アテンションの重みは，特徴重要性（例えば勾配ベース）と相関している
代替の（あるいは反面の）アテンションの重みの利用によって，予測結果は変わるべきであるそして，実験において，どちらの想定もQA, NLIというNLPのテキスト分類タスクで観測することはできなかった

例えばFig 1は映画レビューに対して，標準的なBiLSTMのアテンションをかけたもの（左）と敵対的なアテンションをかけたもの（右）である．左の例を見ると"waste"という単語に大きな重みがかかっており，これが'negative (y=0.01)という結果に対する説明を与えてそうに見えるが，敵対的なアテンションの場合においても出力は変わらなかった（y=0.01)．

リサーチクエスチョンとコントリビューション

特徴重要性の尺度（具体的には勾配やleave-one-out手法による結果）に起因するものに関して，アテンションの重みはどの程度関連しているか？
アテンションの重みを変えることによって，異なる出力を出すのか？

これに対する回答として，1. 弱くそして一貫していない，2. NO．入力に対して全くことなるようなアテンションをかける方法においても同様の予測結果をしばしば出力した．もっというと，ランダムに入れ替えたような重みにおいても最小限の出力変化しか生まなかった．

前提と想定

実験対象のNLPタスクとして，分類，NLI，QAを選んだ．（著者注：seq2seqが一番アテンションが使われているものの，アテンションに対する効能はあまり言及されない）

モデルのインプットは長さTの系列データで，単語埋め込みの後エンコードする（基本的にBiLSTMだが，CNNも実験）．隠れ次元のベクトルhとクエリからアテンションの重み（スカラ）を計算する関数φは，Additive φ（vT tanh(W1h + W2Q), Bahdanau, 2014）とScaled Dot-Productを利用（hQ/(root(m))）．そして最終レイヤでは各隠れ次元に重みをかけて足し合わせたものをAffineして答えを予測

データセットとタスク

二値テキスト分類

Stanford Sentiment Treebankを利用，データセットは1-5のレンジでnegative, positiveを予測する問題だが，今回は1,2及び4,5のデータのみ利用．
IMDB Large Movie Reviews Corpusも利用．レビューのpos/negを予想するタスク
Twitter Adverse Drug Reaction datasetも利用．有害な薬物に言及しているかどうか．
20 Newsgroupsタスク．ベースボール or ホッケーを予想する問題に．
AG News Corpus (Business vs World)．world or business記事を予想する問題に．
MIMIC ICD9 (Diabetes)．電子ヘルス記録．ICD9コードに関するディベートかどうか // ICD9がよくわからん
MIMIC ICD9（慢性，急性貧血）．慢性か急性の貧血か当てる．

QA

CNN News Articles: CNNのニュース記事から自動で作られたもの．答えはパラグラフ中の隠されたエンティティに入っている．
bAbI：20 QAタスク，そのうちreasoningが必要なタスクから？

NLI

SNLI：文ペアが与えられて，neutral, contradiction, entailmentを答える．

4. 実験

4.1章では，勾配ベースの特徴重要性と学習したアテンション，及びleave-one-out尺度と学習したアテンションの間には，相関があるか，調べた．
4.2章では，事実に反するアテンションを利用した際の予測結果がどう変わるか見る．これが変われば，アテンションは何かしらの説明性を持っていると言えるのに対して，もし結果が変わらなければ，アテンションが説明性をもっているということは難しくなる．以降の実験ではAdditive attentionを利用，ScaledDotProductの結果は同等のものだった．

今回の実験では，Total Variation Distance (TVD，予測結果の差の絶対値の合計)とJensen-Shannon divergence（KLダイバージェンスに対称となるように定義したもの）を利用する．

4.1 アテンションと特徴重要性の尺度

２つの特徴重要性の相関尺度を考える

勾配ベース τ_g
leaving-out τ_{loo} （特定位置の単語を取り除く）

特徴重要性の計算アルゴは下記．勾配ベースとleaving-outベースの特徴量それぞれとアテンション重みのケンドールの順位相関係数を求める．

Table 2に各データセットの相関値τの統計及びFigure 2にτgのヒストグラムを示す（τlooも似たような分布で省略）．// カッコの中はエンコーダー．Averageというのがわかりにくいが，コードを読むと単語埋め込みのトークン列を単純に平均したものを隠れベクトルとすることを示す．各色はラベルを表している（２値or３値）．

BiLSTMエンコーダーモデルの相関は0.5あたりで弱く，Table 2から一部有意関係を確認できないケースが多い，CNNも書いてないが似たような結果．
対照的にAverageエンコーダーでは非常に高い相関を示した -> これらの結果より，アテンションの重みは標準的な特徴重要性のスコアと強い相関がないことがわかる（Averageエンコーダーを強い相関があるが，これは単純すぎて使えるものではない）

4.2 反事実的なアテンションの重み

次にアテンションを下記のような２種類の方法で書き換え，予測結果が変わるか見る．

Attention Permutation: オリジナルのアテンションの重みを，ランダムに再割当てして入れ替える
Adversarial Attention: オリジナルの重みと最大限異なるように敵対的な重み分布を生成する

Attention Permutation

オリジナルのアテンション重みをランダムに入れ替えて予測結果との差異を計算（TVD）．これを１００回繰り返した平均を求める．結果はFig 3（横軸は結果の差異，縦軸はアテンションの重みの最大値）．

アテンションの重みが大きいようなケースにおいても，入れ替えしても結果の差異が小さい場合が多い（アテンションの重みが大きいー＞説明性がある！と，よくモデル説明に使われがち！）
Diabetesタスクでは，posクラスにおいて差異が大きい事がわかる．ただしこれは，非常に重要なトークンに対して十分な注意がいかなかったから，と言えるのではないだろうか

Adversarial Attention

予測結果が変わらないようにしつつ，アテンションの分布を可能な限り異なるものにする．結果差異が小さい値εより小さく抑えつつ，各重みαをオリジナルのものから最大化するようにする．下図に示すように，JSDが大きい（異なる分布）であるアテンションを生成できた．

Fig 5に結果を示す．予測結果を小さい変化に抑えつつ，アテンション分布が大きく異なる（JSD観点）ことを実現できている．先ほどと同じようにアテンションが大きい場合においても，先ほどと同様に成功している

Related work

略

Discussion and Conclusions

特徴重要性（勾配及びleave-out）とアテンションの重みに関して，相関が低いことを見つけた．更にアテンションが全く異なるようなものにしつつ，予測結果の差異を最小限なものにすることもできた．アテンションは確かに性能向上に貢献してはいるのだが，アテンションにモデルの透明性や説明性を求めるのには疑問の余地がある． seq2seq翻訳など他のアテンション機構に関してはまだ調査できていないので，本研究がこの分野への貢献となることを願う．

参考

特徴重要性尺度に関して参考にされたペーパー Right for the Right Reasons: Training Differentiable Models by Constraining their Explanations https://arxiv.org/abs/1703.03717

代替アテンションの利用でも一部差異が出たタスクもある．このようなタスクで，アテンション入れ替えだけでなく，アテンションをかけずにナイーブにした際に（全部１）どう結果が変わるか見たい

jojonki / arXivNotes