Open cfiken opened 3 years ago
RoBERTa などの巨大な言語モデルは言語理解能力も向上しており、人間のような"構文"の理解がある程度できるようになっていると言われている。本研究では、モデルが本当に"人間のような構文の理解"をできているか確かめるため、NLI タスクにおいて入力文のトークンをランダムに入れ替えて推論を行い、正しく推論できているかどうかで構文理解度を測る指標 Permutation Acceptance を定義、結果として人間とは異なりある程度トークンを入れ替えても正しいラベルを当てられることを発見。これが out-of-domain のデータや、英語以外の言語 (中国語)、Transformer 以外のモデル (RNN, ConvNet) でも同様であることを実験にて確認した。 いくつかの仮説を検証し、permutation 後の POS タグの並びなどに要因があるものの、高い Acceptance Rate (permutation 後の文が正しいラベルを推論できた率) はそれだけでは説明できないとしている。
表(Table 1)は元の文と permutation 適用後の文でモデルの推測ラベルが変わらない例。
割愛。ややこしいので論文読んだほうが良い。下記は結果の一部。
0. 論文
1. どんなもの?
RoBERTa などの巨大な言語モデルは言語理解能力も向上しており、人間のような"構文"の理解がある程度できるようになっていると言われている。本研究では、モデルが本当に"人間のような構文の理解"をできているか確かめるため、NLI タスクにおいて入力文のトークンをランダムに入れ替えて推論を行い、正しく推論できているかどうかで構文理解度を測る指標 Permutation Acceptance を定義、結果として人間とは異なりある程度トークンを入れ替えても正しいラベルを当てられることを発見。これが out-of-domain のデータや、英語以外の言語 (中国語)、Transformer 以外のモデル (RNN, ConvNet) でも同様であることを実験にて確認した。 いくつかの仮説を検証し、permutation 後の POS タグの並びなどに要因があるものの、高い Acceptance Rate (permutation 後の文が正しいラベルを推論できた率) はそれだけでは説明できないとしている。
表(Table 1)は元の文と permutation 適用後の文でモデルの推測ラベルが変わらない例。
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
割愛。ややこしいので論文読んだほうが良い。下記は結果の一部。
5. 議論はある?
6. 次に読むべき論文は?