“Corrupt Data” を準備
Q-only: Assign random passages (For SQuAD, create passages that contain the candidates in random locations)
P-only: Assign random questions
Full data/Corrupt dataでのモデルの性能を比較
Q-only, P-onlyでも高い性能が出るなら、PassageとQuestionを関連付けられていなくても解ける問題
結果
CNN: “anonymization of entities which prevents models from building entity-specific information”
SQuAD: “is an unusually carefully-designed and challenging RC task.”
一言でいうと
Reading comprehension (RC) データセットが本当にRCの評価に適したものになっているか調査
5種類のデータセット、3種類のNNベースのモデルを使用
データセット作成論文、提案モデル論文でレポートすべき要件について提案
論文リンク
https://aclanthology.info/papers/D18-1546/d18-1546
著者/所属機関
Divyansh Kaushik, Zachary C. Lipton (CMU)
投稿日付(yyyy/MM/dd)
EMNLP2018 (Short paper)
新規性・差分
個々のデータセットに対する分析はあるが、5種類のデータセットを横断的に分析したのは初めて?
手法
“Corrupt Data” を準備 Q-only: Assign random passages (For SQuAD, create passages that contain the candidates in random locations) P-only: Assign random questions
Full data/Corrupt dataでのモデルの性能を比較 Q-only, P-onlyでも高い性能が出るなら、PassageとQuestionを関連付けられていなくても解ける問題
結果
CNN: “anonymization of entities which prevents models from building entity-specific information”
SQuAD: “is an unusually carefully-designed and challenging RC task.”
他のデータセットは問題アリ Q-only, P-onlyでも結構正解できちゃう Passageの最後の一文だけでも正解できるものも
提言
結果を報告するときは、Q-only, P-onlyでの性能も報告しよう。でないとRCのタスクを本当にやっているのか、passage の正解に対する分類問題を解いているのか分からない。
加えて、正解するのに必要だったコンテキスト(passageの分量)についても報告しよう。