非本代码issue，个人实现中文数据集结果很差

ymcui / cmrc2018

A Span-Extraction Dataset for Chinese Machine Reading Comprehension (CMRC 2018)

https://ymcui.github.io/cmrc2018/

Creative Commons Attribution Share Alike 4.0 International

411 stars 87 forks source link

非本代码issue，个人实现中文数据集结果很差 #9

Closed Lapis-Hong closed 4 years ago

Lapis-Hong commented 4 years ago

您好，我最近在用transformers做中文qa的时候效果都没效果，跑出来em和f1都是个位数，read_examples时已经改成了中文的预处理，看了github上有些其他的中文实现也有这个问题，请问这是什么原因呢？还有什么关键部分需要调整的吗对比您的代码和原始bert代码时候发现除了数据处理，还有一个区别是input_span_mask，但是这个影响感觉也不至于那么大

ymcui commented 4 years ago

input_span_mask只是锦上添花的作用，不使用不会造成效果崩塌
建议排查：是否正确加载了预训练模型？数据处理方面是否存在错位等情况（例如SQuAD或者CMRC 2018这种类型数据）？

Lapis-Hong commented 4 years ago

感谢回复，预训练模型没问题，用你的代码跑结果是正常的，数据处理错位问题一直在排查，看了几个sample是没有问题的，一直找不到问题所在。

XiaoqingNLP commented 2 years ago

@Lapis-Hong @ymcui 请问找到数据错位的原因了吗？我发现作者提供的数据cmrc 2018 中，有一些样本给定的答案起始位置和真实的答案位置存在偏差；是不是因为我下载版本不对？