Closed Lapis-Hong closed 4 years ago
您好,我最近在用transformers做中文qa的时候效果都没效果,跑出来em和f1都是个位数,read_examples时已经改成了中文的预处理,看了github上有些其他的中文实现也有这个问题,请问这是什么原因呢?还有什么关键部分需要调整的吗 对比您的代码和原始bert代码时候发现除了数据处理,还有一个区别是input_span_mask,但是这个影响感觉也不至于那么大
感谢回复,预训练模型没问题,用你的代码跑结果是正常的,数据处理错位问题一直在排查,看了几个sample是没有问题的,一直找不到问题所在。
@Lapis-Hong @ymcui 请问找到数据错位的原因了吗? 我发现作者提供的数据cmrc 2018 中,有一些样本给定的答案起始位置和真实的答案位置存在偏差; 是不是因为我下载版本不对?
您好,我最近在用transformers做中文qa的时候效果都没效果,跑出来em和f1都是个位数,read_examples时已经改成了中文的预处理,看了github上有些其他的中文实现也有这个问题,请问这是什么原因呢?还有什么关键部分需要调整的吗 对比您的代码和原始bert代码时候发现除了数据处理,还有一个区别是input_span_mask,但是这个影响感觉也不至于那么大