ymcui / cmrc2018

A Span-Extraction Dataset for Chinese Machine Reading Comprehension (CMRC 2018)
https://ymcui.github.io/cmrc2018/
Creative Commons Attribution Share Alike 4.0 International
411 stars 87 forks source link

非本代码issue,个人实现中文数据集结果很差 #9

Closed Lapis-Hong closed 4 years ago

Lapis-Hong commented 4 years ago

您好,我最近在用transformers做中文qa的时候效果都没效果,跑出来em和f1都是个位数,read_examples时已经改成了中文的预处理,看了github上有些其他的中文实现也有这个问题,请问这是什么原因呢?还有什么关键部分需要调整的吗 对比您的代码和原始bert代码时候发现除了数据处理,还有一个区别是input_span_mask,但是这个影响感觉也不至于那么大

ymcui commented 4 years ago
  1. input_span_mask只是锦上添花的作用,不使用不会造成效果崩塌
  2. 建议排查:是否正确加载了预训练模型?数据处理方面是否存在错位等情况(例如SQuAD或者CMRC 2018这种类型数据)?
Lapis-Hong commented 4 years ago

感谢回复,预训练模型没问题,用你的代码跑结果是正常的,数据处理错位问题一直在排查,看了几个sample是没有问题的,一直找不到问题所在。

XiaoqingNLP commented 2 years ago

@Lapis-Hong @ymcui 请问找到数据错位的原因了吗? 我发现作者提供的数据cmrc 2018 中,有一些样本给定的答案起始位置和真实的答案位置存在偏差; 是不是因为我下载版本不对?