想问一下Dureader上面是上传search,还是zhidao的数据集，还是2个一起打包成zip？

shiningliang commented 5 years ago

这位朋友问的是自己做评测时吧，都是放在一起打包的。另外，据赛后总结来看，分别针对search和zhidao训练的收益并不高。

tomtang110 commented 5 years ago

可以问问，你当时单独在dev的search上得到的bleu4和rouge-L分数是多少吗？主要，我这边用glove预训练加bidaf加自己做的数据预处理也就bleu4：28.5 rouge-L:31在search的验证集上面。我这是想看看我的效果和你们的差别有多大。自己心里有个底。还有就是，我以前看到你们的bidaf都没有加入字向量，我后来又把字向量加入训练，用cnn进行编码，结果我64g内存GG了，最后我发现，其实输入只是most-related部分，我调了一下貌似就可以训练了。但是不知道到底课题提高多少。所以能不能说一下，你们当时在search验证集的分数，让我做个参考，谢谢。

shiningliang commented 5 years ago

我没做过在search上的测试，比赛时群里大家反馈说效果一般。听了获奖报告，这个比赛和经典数据挖掘比赛一样，数据预处理很关键，模型创新都不大，也可能是时间比较紧迫。

tomtang110 commented 5 years ago

好的，谢谢了。基本了解，其实我还尝试了一下QAnet，但是发现QAnet对于这个数据的一部分数据直接产生了无穷大的loss，导致无法进行训练了，，，，，，。然后bidaf+self-attention+char-embedding又太耗内存，非128G会导致内存过高无法训练。看来我的实验就这么失败了，，so尴尬。

shiningliang / MRC2018

想问一下Dureader上面是上传search,还是zhidao的数据集，还是2个一起打包成zip？ #4