BrambleXu / knowledge-graph-learning

A curated list of awesome knowledge graph tutorials, projects and communities.
MIT License
735 stars 120 forks source link

NAACL-2019-ComQA: A Community-sourced Dataset for Complex Factoid Question Answering with Paraphrase Clusters #311

Open BrambleXu opened 4 years ago

BrambleXu commented 4 years ago

Summary:

又一个公布数据集的论文。与 #310 从Freebase里创建数据不同,这个数据集是从WikiAnswers community 的QA平台制作的。按照问题的释义对问题进行了分组。相关研究的部分介绍了 factoid QA task当前的两大流派,一个是QA over textual corpora,一个是QA over KBs。

Resource:

Paper information:

Notes:

根据wiki的介绍,Answers.com整合了WikiAnswers。所以现在无法直接搜索到WikiAnswers的网站了。

image

相关研究

相关研究的部分介绍了 factoid QA task当前的两大流派,一个是QA over textual corpora,一个是QA over KBs。

QA over textual corpora(2000-2015). 这个主要是从textual sources里找到答案。这方面的benchmark任务主要有TREC和CLEF。

最近Reading comprehension (RC)被引入了这个领域中(2015-2017)。目标是answer a question from a given textual paragraph。这个和factoid QA有些不同。因为factoid QA是从大量的文档中找到答案,而不是单个段落中找答案。

QA over KBs(2015-2018). 通过semantic parsing将question翻译为structured queries(这方面有很多研究)。过去5年,这方面出了很多数据集。下表展示了不同数据集的维度。然后说ComQA比其他数据集要好。

image

3 Overview

定义:

3.1 Questions in ComQA

这里给不同问题做了不同的分类。

Model Graph:

Result:

Thoughts:

果然这种开放式的前提下,问题的分类会变得非常多,变数增多。其实把domain设定好,针对某个domain可以预知常见的提问,比如公司信息领域,”XXX公司的营业收入是多少“。这样的话,不仅可以把问题的范围缩小,还可以提高对应的识别精度

Next Reading: