jojonki / arXivNotes

IssuesにNLP(自然言語処理)に関連するの論文を読んだまとめを書いています.雑です.🚧 マークは編集中の論文です(事実上放置のものも多いです).🍡 マークは概要のみ書いてます(早く見れる的な意味で団子).
https://github.com/jojonki/arXivNotes/issues
194 stars 8 forks source link

Attention is not Explanation #221

Open jojonki opened 5 years ago

jojonki commented 5 years ago

Attention is not Explanation Sarthak Jain, Byron C. Wallace
Accepted as NAACL 2019 Long Paper. Draft Version https://arxiv.org/abs/1902.10186

github: https://github.com/successar/AttentionExplanation

概要

アテンション機構はNLPでも広く使われており,入力に対するアテンションを実現する.しかし,アテンションの重みと出力の関係性は不明瞭である.本研究では,様々なNLPタスク(二値テキスト分類,QA, NLI)においてアテンションの重みが,予測に対する意味のある"説明"を付与できているか調べた.実験の結果,そうではないということを見つけた.学習されたアテンションと,特徴的重要性の勾配ベースの尺度としばしば相関がなく,アテンションがまったく異なる場合においても同様の予測をできていたりした.

標準的なアテンション機構は,意味のある説明を成している,という風に取り扱うことに本論では一石を投じる.

イントロと動機

アテンション機構はBahdanau 2014あたりから.NLPにおいても広く使われている.またアテンションはモデルに解釈性を与えるものとして,しばしば性能説明に利用されてきた.しかし,本当にアテンションがモデルの出力に対して相関しているという想定は,ちゃんと評価されていない.これは問題である.

そこで我々は,アテンション,入力,出力の関連性を調査した.それにあたり,アテンションは出力に対して説明性を提供できるという下記のような想定を置いた.

  1. アテンションの重みは,特徴重要性(例えば勾配ベース)と相関している
  2. 代替の(あるいは反面の)アテンションの重みの利用によって,予測結果は変わるべきである そして,実験において,どちらの想定もQA, NLIというNLPのテキスト分類タスクで観測することはできなかった

例えばFig 1は映画レビューに対して,標準的なBiLSTMのアテンションをかけたもの(左)と敵対的なアテンションをかけたもの(右)である.左の例を見ると"waste"という単語に大きな重みがかかっており,これが'negative (y=0.01)という結果に対する説明を与えてそうに見えるが,敵対的なアテンションの場合においても出力は変わらなかった(y=0.01).

Screen Shot 2019-04-06 at 2 50 39 PM

リサーチクエスチョンとコントリビューション

  1. 特徴重要性の尺度(具体的には勾配やleave-one-out手法による結果)に起因するものに関して,アテンションの重みはどの程度関連しているか?
  2. アテンションの重みを変えることによって,異なる出力を出すのか?

これに対する回答として,1. 弱くそして一貫していない,2. NO.入力に対して全くことなるようなアテンションをかける方法においても同様の予測結果をしばしば出力した.もっというと,ランダムに入れ替えたような重みにおいても最小限の出力変化しか生まなかった.

前提と想定

実験対象のNLPタスクとして,分類,NLI,QAを選んだ.(著者注:seq2seqが一番アテンションが使われているものの,アテンションに対する効能はあまり言及されない)

モデルのインプットは長さTの系列データで,単語埋め込みの後エンコードする(基本的にBiLSTMだが,CNNも実験).隠れ次元のベクトルhとクエリからアテンションの重み(スカラ)を計算する関数φは,Additive φ(vT tanh(W1h + W2Q), Bahdanau, 2014)とScaled Dot-Productを利用(hQ/(root(m))).そして最終レイヤでは各隠れ次元に重みをかけて足し合わせたものをAffineして答えを予測

データセットとタスク

二値テキスト分類

QA

NLI

4. 実験

今回の実験では,Total Variation Distance (TVD,予測結果の差の絶対値の合計)とJensen-Shannon divergence(KLダイバージェンスに対称となるように定義したもの)を利用する.

4.1 アテンションと特徴重要性の尺度

2つの特徴重要性の相関尺度を考える

  1. 勾配ベース τ_g
  2. leaving-out τ_{loo} (特定位置の単語を取り除く)

特徴重要性の計算アルゴは下記.勾配ベースとleaving-outベースの特徴量それぞれとアテンション重みのケンドールの順位相関係数を求める.

Screen Shot 2019-04-13 at 9 32 07 AM

Table 2に各データセットの相関値τの統計及びFigure 2にτgのヒストグラムを示す(τlooも似たような分布で省略).// カッコの中はエンコーダー.Averageというのがわかりにくいが,コードを読むと単語埋め込みのトークン列を単純に平均したものを隠れベクトルとすることを示す.各色はラベルを表している(2値or3値).

4.2 反事実的なアテンションの重み

次にアテンションを下記のような2種類の方法で書き換え,予測結果が変わるか見る.

Attention Permutation

オリジナルのアテンション重みをランダムに入れ替えて予測結果との差異を計算(TVD).これを100回繰り返した平均を求める. 結果はFig 3(横軸は結果の差異,縦軸はアテンションの重みの最大値).

Adversarial Attention

予測結果が変わらないようにしつつ,アテンションの分布を可能な限り異なるものにする.結果差異が小さい値εより小さく抑えつつ,各重みαをオリジナルのものから最大化するようにする.下図に示すように,JSDが大きい(異なる分布)であるアテンションを生成できた.

Screen Shot 2019-04-13 at 11 20 51 AM

Fig 5に結果を示す.予測結果を小さい変化に抑えつつ,アテンション分布が大きく異なる(JSD観点)ことを実現できている.先ほどと同じようにアテンションが大きい場合においても,先ほどと同様に成功している

Screen Shot 2019-04-13 at 11 24 06 AM

Related work

Discussion and Conclusions

特徴重要性(勾配及びleave-out)とアテンションの重みに関して,相関が低いことを見つけた.更にアテンションが全く異なるようなものにしつつ,予測結果の差異を最小限なものにすることもできた. アテンションは確かに性能向上に貢献してはいるのだが,アテンションにモデルの透明性や説明性を求めるのには疑問の余地がある. seq2seq翻訳など他のアテンション機構に関してはまだ調査できていないので,本研究がこの分野への貢献となることを願う.

参考

コメント

jojonki commented 5 years ago

Podcastでも紹介しました.https://anchor.fm/lnlp-ninja/episodes/ep28-Attention-is-not-Explanation-e3npth