Open jojonki opened 5 years ago
Attention is not Explanation Sarthak Jain, Byron C. Wallace Accepted as NAACL 2019 Long Paper. Draft Version https://arxiv.org/abs/1902.10186
github: https://github.com/successar/AttentionExplanation
アテンション機構はNLPでも広く使われており,入力に対するアテンションを実現する.しかし,アテンションの重みと出力の関係性は不明瞭である.本研究では,様々なNLPタスク(二値テキスト分類,QA, NLI)においてアテンションの重みが,予測に対する意味のある"説明"を付与できているか調べた.実験の結果,そうではないということを見つけた.学習されたアテンションと,特徴的重要性の勾配ベースの尺度としばしば相関がなく,アテンションがまったく異なる場合においても同様の予測をできていたりした.
標準的なアテンション機構は,意味のある説明を成している,という風に取り扱うことに本論では一石を投じる.
アテンション機構はBahdanau 2014あたりから.NLPにおいても広く使われている.またアテンションはモデルに解釈性を与えるものとして,しばしば性能説明に利用されてきた.しかし,本当にアテンションがモデルの出力に対して相関しているという想定は,ちゃんと評価されていない.これは問題である.
そこで我々は,アテンション,入力,出力の関連性を調査した.それにあたり,アテンションは出力に対して説明性を提供できるという下記のような想定を置いた.
例えばFig 1は映画レビューに対して,標準的なBiLSTMのアテンションをかけたもの(左)と敵対的なアテンションをかけたもの(右)である.左の例を見ると"waste"という単語に大きな重みがかかっており,これが'negative (y=0.01)という結果に対する説明を与えてそうに見えるが,敵対的なアテンションの場合においても出力は変わらなかった(y=0.01).
リサーチクエスチョンとコントリビューション
これに対する回答として,1. 弱くそして一貫していない,2. NO.入力に対して全くことなるようなアテンションをかける方法においても同様の予測結果をしばしば出力した.もっというと,ランダムに入れ替えたような重みにおいても最小限の出力変化しか生まなかった.
実験対象のNLPタスクとして,分類,NLI,QAを選んだ.(著者注:seq2seqが一番アテンションが使われているものの,アテンションに対する効能はあまり言及されない)
モデルのインプットは長さTの系列データで,単語埋め込みの後エンコードする(基本的にBiLSTMだが,CNNも実験).隠れ次元のベクトルhとクエリからアテンションの重み(スカラ)を計算する関数φは,Additive φ(vT tanh(W1h + W2Q), Bahdanau, 2014)とScaled Dot-Productを利用(hQ/(root(m))).そして最終レイヤでは各隠れ次元に重みをかけて足し合わせたものをAffineして答えを予測
今回の実験では,Total Variation Distance (TVD,予測結果の差の絶対値の合計)とJensen-Shannon divergence(KLダイバージェンスに対称となるように定義したもの)を利用する.
2つの特徴重要性の相関尺度を考える
特徴重要性の計算アルゴは下記.勾配ベースとleaving-outベースの特徴量それぞれとアテンション重みのケンドールの順位相関係数を求める.
Table 2に各データセットの相関値τの統計及びFigure 2にτgのヒストグラムを示す(τlooも似たような分布で省略).// カッコの中はエンコーダー.Averageというのがわかりにくいが,コードを読むと単語埋め込みのトークン列を単純に平均したものを隠れベクトルとすることを示す.各色はラベルを表している(2値or3値).
次にアテンションを下記のような2種類の方法で書き換え,予測結果が変わるか見る.
オリジナルのアテンション重みをランダムに入れ替えて予測結果との差異を計算(TVD).これを100回繰り返した平均を求める. 結果はFig 3(横軸は結果の差異,縦軸はアテンションの重みの最大値).
予測結果が変わらないようにしつつ,アテンションの分布を可能な限り異なるものにする.結果差異が小さい値εより小さく抑えつつ,各重みαをオリジナルのものから最大化するようにする.下図に示すように,JSDが大きい(異なる分布)であるアテンションを生成できた.
Fig 5に結果を示す.予測結果を小さい変化に抑えつつ,アテンション分布が大きく異なる(JSD観点)ことを実現できている.先ほどと同じようにアテンションが大きい場合においても,先ほどと同様に成功している
略
特徴重要性(勾配及びleave-out)とアテンションの重みに関して,相関が低いことを見つけた.更にアテンションが全く異なるようなものにしつつ,予測結果の差異を最小限なものにすることもできた. アテンションは確かに性能向上に貢献してはいるのだが,アテンションにモデルの透明性や説明性を求めるのには疑問の余地がある. seq2seq翻訳など他のアテンション機構に関してはまだ調査できていないので,本研究がこの分野への貢献となることを願う.
Podcastでも紹介しました.https://anchor.fm/lnlp-ninja/episodes/ep28-Attention-is-not-Explanation-e3npth
Attention is not Explanation Sarthak Jain, Byron C. Wallace
Accepted as NAACL 2019 Long Paper. Draft Version https://arxiv.org/abs/1902.10186
github: https://github.com/successar/AttentionExplanation
概要
アテンション機構はNLPでも広く使われており,入力に対するアテンションを実現する.しかし,アテンションの重みと出力の関係性は不明瞭である.本研究では,様々なNLPタスク(二値テキスト分類,QA, NLI)においてアテンションの重みが,予測に対する意味のある"説明"を付与できているか調べた.実験の結果,そうではないということを見つけた.学習されたアテンションと,特徴的重要性の勾配ベースの尺度としばしば相関がなく,アテンションがまったく異なる場合においても同様の予測をできていたりした.
標準的なアテンション機構は,意味のある説明を成している,という風に取り扱うことに本論では一石を投じる.
イントロと動機
アテンション機構はBahdanau 2014あたりから.NLPにおいても広く使われている.またアテンションはモデルに解釈性を与えるものとして,しばしば性能説明に利用されてきた.しかし,本当にアテンションがモデルの出力に対して相関しているという想定は,ちゃんと評価されていない.これは問題である.
そこで我々は,アテンション,入力,出力の関連性を調査した.それにあたり,アテンションは出力に対して説明性を提供できるという下記のような想定を置いた.
例えばFig 1は映画レビューに対して,標準的なBiLSTMのアテンションをかけたもの(左)と敵対的なアテンションをかけたもの(右)である.左の例を見ると"waste"という単語に大きな重みがかかっており,これが'negative (y=0.01)という結果に対する説明を与えてそうに見えるが,敵対的なアテンションの場合においても出力は変わらなかった(y=0.01).
リサーチクエスチョンとコントリビューション
これに対する回答として,1. 弱くそして一貫していない,2. NO.入力に対して全くことなるようなアテンションをかける方法においても同様の予測結果をしばしば出力した.もっというと,ランダムに入れ替えたような重みにおいても最小限の出力変化しか生まなかった.
前提と想定
実験対象のNLPタスクとして,分類,NLI,QAを選んだ.(著者注:seq2seqが一番アテンションが使われているものの,アテンションに対する効能はあまり言及されない)
モデルのインプットは長さTの系列データで,単語埋め込みの後エンコードする(基本的にBiLSTMだが,CNNも実験).隠れ次元のベクトルhとクエリからアテンションの重み(スカラ)を計算する関数φは,Additive φ(vT tanh(W1h + W2Q), Bahdanau, 2014)とScaled Dot-Productを利用(hQ/(root(m))).そして最終レイヤでは各隠れ次元に重みをかけて足し合わせたものをAffineして答えを予測
データセットとタスク
二値テキスト分類
QA
NLI
4. 実験
今回の実験では,Total Variation Distance (TVD,予測結果の差の絶対値の合計)とJensen-Shannon divergence(KLダイバージェンスに対称となるように定義したもの)を利用する.
4.1 アテンションと特徴重要性の尺度
2つの特徴重要性の相関尺度を考える
特徴重要性の計算アルゴは下記.勾配ベースとleaving-outベースの特徴量それぞれとアテンション重みのケンドールの順位相関係数を求める.
Table 2に各データセットの相関値τの統計及びFigure 2にτgのヒストグラムを示す(τlooも似たような分布で省略).// カッコの中はエンコーダー.Averageというのがわかりにくいが,コードを読むと単語埋め込みのトークン列を単純に平均したものを隠れベクトルとすることを示す.各色はラベルを表している(2値or3値).
4.2 反事実的なアテンションの重み
次にアテンションを下記のような2種類の方法で書き換え,予測結果が変わるか見る.
Attention Permutation
オリジナルのアテンション重みをランダムに入れ替えて予測結果との差異を計算(TVD).これを100回繰り返した平均を求める. 結果はFig 3(横軸は結果の差異,縦軸はアテンションの重みの最大値).
Adversarial Attention
予測結果が変わらないようにしつつ,アテンションの分布を可能な限り異なるものにする.結果差異が小さい値εより小さく抑えつつ,各重みαをオリジナルのものから最大化するようにする.下図に示すように,JSDが大きい(異なる分布)であるアテンションを生成できた.
Fig 5に結果を示す.予測結果を小さい変化に抑えつつ,アテンション分布が大きく異なる(JSD観点)ことを実現できている.先ほどと同じようにアテンションが大きい場合においても,先ほどと同様に成功している
Related work
略
Discussion and Conclusions
特徴重要性(勾配及びleave-out)とアテンションの重みに関して,相関が低いことを見つけた.更にアテンションが全く異なるようなものにしつつ,予測結果の差異を最小限なものにすることもできた. アテンションは確かに性能向上に貢献してはいるのだが,アテンションにモデルの透明性や説明性を求めるのには疑問の余地がある. seq2seq翻訳など他のアテンション機構に関してはまだ調査できていないので,本研究がこの分野への貢献となることを願う.
参考
コメント