e4exp / paper_manager_abstract

0 stars 0 forks source link

A Dataset of Information-Seeking Questions and Answers Anchored in Research Papers #469

Open e4exp opened 3 years ago

e4exp commented 3 years ago

学術研究論文の読者は、特定の質問に答えることを目的として読むことが多い。 そのような質問に答えることができる質問応答システムは、コンテンツの消費をより効率的にすることができます。 しかし、そのようなツールを構築するには、論文の複数の部分でなされた主張に対する複雑な推論から生じるタスクの難しさを反映したデータが必要である。 一方、既存の情報探索質問応答データセットには、一般的なファクトタイプの情報に関する質問が含まれています。 そこで我々は、1,585本の自然言語処理論文に対する5,049件の質問のデータセットであるQASPERを発表する。 各質問は、対応する論文のタイトルとアブストラクトのみを読んだNLPプラクティショナーによって書かれており、質問はフルテキストに存在する情報を求めています。 この質問には、別のNLP専門家が回答し、回答の裏付けとなる証拠も提供しています。 その結果、他のQAタスクでは良好な結果が得られた既存モデルでも、これらの質問に対しては良好な結果が得られず、論文全体から回答した場合には少なくとも27F1ポイントの差で人間を下回ることが分かりました。

e4exp commented 3 years ago

1 はじめに

文章を読んで情報を探す人間を支援するための機械は、情報のニーズを意識して設計されるべきである。 抽象的に言えば,人間のニーズは,システムが目的の情報を見つけるためにテキストを見る際のレンズを定義する必要がある. 既存の情報探索機械読解データセット(例えば、Kwiatkowskiら、2019年、Clarkら、2020年)は、スケールの大きい読解を大きく進展させた(例えば、Asaiら、2020年、Guuら、2020年、Liuら、2020年)。 しかし、これらのベンチマークのほとんどは、質問が特定のユーザーの文脈に固定されていない「オープンドメイン」の設定に焦点を当てています。 その結果、人々が必要とする情報の全範囲ではなく、一般的な事実に基づいた質問に重点が置かれています。 我々は、学術研究論文を対象とした情報探索質問応答(QA)データセットであるQASPERを発表する。 各質問は、特定の論文のタイトルとアブストラクトに対するフォローアップとして書かれており、答えがある場合には、論文の残りの部分で、その答えに到達するために必要な証拠とともに特定されます。 この設定により、従来のデータセットよりも複雑な文書レベルの推論を必要とする質問が出てきます。 これは、 (i)アブストラクトがフォローアップとして質問するための豊富なプロンプトを提供していること、 (ii)学術研究論文は、ターゲットとなる読者が主張の裏付けや反論を必要とする質問を自然に引き起こすこと、などが理由です。 このような証拠は、表や図を含む論文全体に広がっている可能性があり、しばしば複雑な含意問題を引き起こします。 図1の例では、質問に答えるために、3つの異なるセクションの段落から情報を取り出す必要がある場合を示しています。

QASPERには、1,585本の自然言語処理(NLP)論文に対する5,049件の質問が収録されており、NLP論文の一般読者からの質問と、別のNLP実践者からの回答があります。 各論文には、平均3.2の質問があり、1つの論文には最大12の質問があります。 アノテーターは、質問に答えられる場合は答えを提供するだけでなく、質問に答えるために必要な証拠として、テキスト、表、または図を選択するよう求められました。 質問の55.5%は論文の複数のパラグラフからの証拠を必要とし、13%は表や図を必要とします。 我々の知る限り、QASPERは、抄録だけではなく論文全体に焦点を当てた学術研究領域における最初のQAデータセットです。 QASPERのタスクの難易度を定量化するために、最先端の文書レベルのTransformer(Vaswani et al., 2017)モデルを証拠の選択と回答の生成のタスクに適用し、最良のモデルの性能は、論文全体からの質問への回答で27F1ポイント、質問に回答するための証拠を提供する段落の選択で32F1ポイント、人間に遅れることを示し、これらはいずれも未解決の問題であることを示しています。 さらに、金の証拠から質問に答えるオラクルを実験したところ、より良い事前トレーニングとドメイン適応が役立つ可能性があることがわかった。

e4exp commented 3 years ago

image

e4exp commented 3 years ago

7 結論 我々は、NLP研究論文の情報探索QAデータセットであるQASPERを発表した。 タイトルやアブストラクトに続く自然な質問で、QASPERが提示したタスクは、論文のフルテキスト内の複数のパラグラフおよび/または図や表からの証拠を必要とする。 我々の実証結果は、人間の推定性能と比較して、改善の余地が十分にあることを示し、QASPERが文書に基づくQA研究を評価するためのテストベッドとして役立つことを示唆しています。