关于测试集的问句构建

ShannonAI / mrc-for-flat-nested-ner

Code for ACL 2020 paper `A Unified MRC Framework for Named Entity Recognition`

662 stars 118 forks source link

关于测试集的问句构建 #29

Closed neptune1997 closed 4 years ago

neptune1997 commented 4 years ago

您好，感谢您的工作和开源代码，有几个问题想要请教一下。在测试集上应该如何构建QA中的问题呢？测试集如果是没有标签的话，是不是要把所有可能的实体标签对应的问句都构建一遍？如果测试集在构建问句的时候使用了对应的实体类别便签会不会导致数据泄漏从而使性能有较大提升呢？

JaeZheng commented 4 years ago

@neptune1997 你好，我也是该工作的一个关注者。就论文和代码实现上来看，测试集上作者的处理确实是要把所有可能的实体标签对应的问句都构建一遍的，对于每一个类别都会做一次对应实体的识别。构建问句的时候使用了对应类别的便签其实是相当于加入了一个先验知识，向模型描述希望找到什么样的实体，不知你这里指的数据泄漏是指？

neptune1997 commented 4 years ago

@neptune1997 你好，我也是该工作的一个关注者。就论文和代码实现上来看，测试集上作者的处理确实是要把所有可能的实体标签对应的问句都构建一遍的，对于每一个类别都会做一次对应实体的识别。构建问句的时候使用了对应类别的便签其实是相当于加入了一个先验知识，向模型描述希望找到什么样的实体，不知你这里指的数据泄漏是指？

数据泄漏就是指您所说的加入的先验知识，我可能用词不太准确。