您好，想请问论文里说train跟dev分别是10321和3351个问题，但实际上github上的train跟dev分别是10142和3219个问题? 另外squad-style的数据有少部分的数据answer start有误?

ymcui / cmrc2018

A Span-Extraction Dataset for Chinese Machine Reading Comprehension (CMRC 2018)

https://ymcui.github.io/cmrc2018/

Creative Commons Attribution Share Alike 4.0 International

411 stars 87 forks source link

您好，想请问论文里说train跟dev分别是10321和3351个问题，但实际上github上的train跟dev分别是10142和3219个问题? 另外squad-style的数据有少部分的数据answer start有误? #22

Open r09944035vsfu1 opened 1 year ago

r09944035vsfu1 commented 1 year ago

论文里说train跟dev分别是10321和3351个问题但实际上github上的train跟dev分别是10142和3219个问题 (huggingface上面也是10142和3219个问题)，想请问是为什么?

另外squad-style的数据比如./squad-style-data/cmrc2018_train.json，有少部分的数据的answer start跟answer text不匹配比如TRAIN_3678_QUERY_4 的问题，answer_start对应context中的答案是"总统袁世凯将"，但text标注是"大总统袁世凯"

想请问一下，谢谢