[2021] UnNatural Language Inference

0. 論文

タイトル	UnNatural Language Inference
リンク	https://arxiv.org/abs/2101.00010
著者	Koustuv Sinha, Prasanna Parthasarathi, Joelle Pineau, Adina Williams
投稿日付	ACL2021 (Outstanding paper)

1. どんなもの？

RoBERTa などの巨大な言語モデルは言語理解能力も向上しており、人間のような"構文"の理解がある程度できるようになっていると言われている。本研究では、モデルが本当に"人間のような構文の理解"をできているか確かめるため、NLI タスクにおいて入力文のトークンをランダムに入れ替えて推論を行い、正しく推論できているかどうかで構文理解度を測る指標 Permutation Acceptance を定義、結果として人間とは異なりある程度トークンを入れ替えても正しいラベルを当てられることを発見。これが out-of-domain のデータや、英語以外の言語 (中国語)、Transformer 以外のモデル (RNN, ConvNet) でも同様であることを実験にて確認した。いくつかの仮説を検証し、permutation 後の POS タグの並びなどに要因があるものの、高い Acceptance Rate (permutation 後の文が正しいラベルを推論できた率) はそれだけでは説明できないとしている。

スクリーンショット 2021-08-18 1 33 09 表(Table 1)は元の文と permutation 適用後の文でモデルの推測ラベルが変わらない例。

2. 先行研究と比べてどこがすごい？

構文理解のための語順の仮説について、多くのモデル、言語、データセットについて実験・仮説検証を行っている。

3. 技術や手法のキモはどこ？

Permutation Acceptance
- 入力文のトークンの順序を permute した文章を q 件作成し、それらをモデルに通してどのくらい正しいラベルを推論できるかどうかを見る。
- これがある一定の値 x を超えているかどうかの割合 Ω_x を metrics として使用している。
- 1件でも通っていれば良い Ω{max}, ランダム推論 (NLI タスクなら 1/3) を超えていれば良い Ω{random} など定義している。

4. どうやって有効だと検証した？

割愛。ややこしいので論文読んだほうが良い。下記は結果の一部。

スクリーンショット 2021-08-18 1 49 40

5. 議論はある？

local word order preservation (近隣のトークン順序) が関係しているという仮説から permutation 前と後の BLEU-2 スコアと推論の精度の相関を見た
- 確かに BLEU-2 が高いほうが精度は高いが、BLEU-2値が非常に低くて(0-0.15)も60%以上の精度があり、これだけでは説明がつかないとしている。
同様にある単語の近隣の POS タグの出現割合が影響している可能性を調査し、Transformer ベースのモデルで影響はありそうだが local word order preservation と同様に高い精度はこれだけでは説明できないとしている。
エキスパートの人間二人に同様に permutation を適用した文章に対して推論をさせたところ、ランダムよりは良いがモデルに比べて大きく低い精度となった。
語順を permute した場合もモデルは高い confidence でラベルを推測している点をモチベーションに、学習時に permutation の推論のエントロピーを最大化するような正則化項をつけて学習させた
- 結果、モデルの精度は若干上がり、Permutation Acceptance はかなり落ちた(=良い)。より人間らしい推論に近づいたと言える。

cfiken / paper-reading