luhua-rain / MRC_Competition_Dureader

机器阅读理解 冠军/亚军代码及中文预训练MRC模型
732 stars 150 forks source link

你好,我觉得squadexample这个类里面是不是有些问题? #35

Open BCWang93 opened 3 years ago

BCWang93 commented 3 years ago

我觉得squadexample这个类里面的这里有些问题吧 for c in self.context_text:

就这里转换位置的时候,因为context_text是个字符串,如果字符串里面没有空格,那么得到的char_to_word_offset里面就全都是0和1.。。这里是不是有一些问题啊?因为我看您在create example的时候并没有进行特殊处理,只是原始的字符串。我运行了一下发现会出现这种问题。谢谢!

sherlcok314159 commented 2 years ago

image

这里不会有问题,因为后面会进行tokenizer.tokenize,从而达到更细粒度的切分

frog-painter commented 11 months ago

确实感觉有问题,对于中文数据集,_improve_answer_span直接退化成find函数了。