luhua-rain / MRC_Competition_Dureader

机器阅读理解 冠军/亚军代码及中文预训练MRC模型
732 stars 150 forks source link

第一步的数据预处理主要作用? #20

Open shawroad opened 4 years ago

shawroad commented 4 years ago

不好意思。 打扰了。 后面的bert训练知道 但是不知道你最初为什么要来一个抽取,这里主要抽取具体是想干什么? 感觉处理过的数据貌似跟原始数据没啥差别。。

shawroad commented 4 years ago

是不是将篇章中的每句与问题进行相似度比对,然后将重要的句子提取出来。相当于把文章的长度缩短了,去除了部分冗余的部分。???

luhua-rain commented 4 years ago

是的,对段落进行召回:1、缩短长度;2、使文章信息更密集

shawroad commented 4 years ago

谢谢了。

aaronvvv commented 3 years ago

请问您讲的“对段落进行召回:1、缩短长度;2、使文章信息更密集”,指的是哪个比赛任务哪个文件的代码呢,我在main 里面关于dureader的好像没找到。