shiningliang / MRC2018

2018百度机器阅读理解技术竞赛
166 stars 52 forks source link

想问下列出来的分数是在什么数据集上的呢? #2

Closed CrazyTianC closed 6 years ago

CrazyTianC commented 6 years ago

是data里给的,还是百度公开的27万的啊? 用data目录里的数据得出来bleu只有5,不知道哪里错了。。。

谢谢啦

windseem commented 6 years ago

只用demo的数据也是bleu只有10+。应该是用的2.8G的那个数据集?而且同样一个模型,为什么train的时候bleu差距很大,有时候会只有0.000几,有时候是10+

shiningliang commented 6 years ago

data目录中的是用于调试模型的数据,我列出的最终结果是百度公开的数据哦 @CrazyTianC @windseem

CrazyTianC commented 6 years ago

@shiningliang 内存和时间的表格也是公开集么?感觉你怎么训练的那么快

shiningliang commented 6 years ago

@CrazyTianC 是的,利用cudnnLSTM和TFRecoder,把百度开源版本在速度和内存占用上优化了很多

CrazyTianC commented 6 years ago

能分享下参数么?跑到第二个epoch,bleu的值就到最大了(大概37),虽然之后的loss都在减小。这样是过拟合么?不晓得应该怎么着手去改。

shiningliang commented 6 years ago

@CrazyTianC 感谢关注,会更新在readme上的

LinHR000 commented 6 years ago

为什么我跑完之后的结果很差,BLEU值只有0.几,能不能分享下你们的参数,还有,你们跑了多少个epoch才取得了较好的结果

windseem commented 6 years ago

@shiningliang 希望楼主分享一下修改的过程。。新手入坑看了DuReader的源码基本都过了一遍,还是不懂怎么去修改。。。

CrazyTianC commented 6 years ago

@LinHR000 本来就是0到1,他列出来的值应该是乘了100

shiningliang commented 6 years ago

@LinHR000 是这样的,比赛官网的分数就是乘100后展示的。

shiningliang commented 6 years ago

@windseem 感谢关注,哈哈,我当时也是新手入坑,大致过程会更新在readme上