ymcui / cmrc2018

A Span-Extraction Dataset for Chinese Machine Reading Comprehension (CMRC 2018)
https://ymcui.github.io/cmrc2018/
Creative Commons Attribution Share Alike 4.0 International
411 stars 87 forks source link

您好,想请问论文里说train跟dev分别是10321和3351个问题,但实际上github上的train跟dev分别是10142和3219个问题? 另外squad-style的数据有少部分的数据answer start有误? #22

Open r09944035vsfu1 opened 1 year ago

r09944035vsfu1 commented 1 year ago

论文里说train跟dev分别是10321和3351个问题 但实际上github上的train跟dev分别是10142和3219个问题 (huggingface上面也是10142和3219个问题),想请问是为什么?

另外squad-style的数据比如./squad-style-data/cmrc2018_train.json,有少部分的数据的answer start跟answer text不匹配 比如TRAIN_3678_QUERY_4 的问题,answer_start对应context中的答案是"总统袁世凯将",但text标注是"大总统袁世凯"

想请问一下,谢谢