Closed WenRichard closed 5 years ago
你好。我没有在WikiQA上调参,因为WikiQA的结果震荡幅度比较大,调参比较花时间。 如果你对wikiqa的训练和测试方法感兴趣,可以参考https://github.com/l11x0m7/LMPresent中的https://github.com/l11x0m7/LMPresent/blob/master/bert/run_classifier_wikiqa.py文件。 wikiqa里包含大量无正确答案的问题,需要去除后再计算MAP和MRR,这样的话分数应该有0.7左右,加上调参和震荡,应该能到0.74+,您可以确认一下您这边是否是这个情况。
你好。我没有在WikiQA上调参,因为WikiQA的结果震荡幅度比较大,调参比较花时间。 如果你对wikiqa的训练和测试方法感兴趣,可以参考https://github.com/l11x0m7/LMPresent中的https://github.com/l11x0m7/LMPresent/blob/master/bert/run_classifier_wikiqa.py文件。 wikiqa里包含大量无正确答案的问题,需要去除后再计算MAP和MRR,这样的话分数应该有0.7左右,加上调参和震荡,应该能到0.74+,您可以确认一下您这边是否是这个情况。
非常感谢您能够抽出时间给出详细的回答!对于您说的去噪,我这边已经完成了这部分的工作,目前MAP,MRR大概在0.71和0.72左右,数据格式是pointwise。我按照论文的参数设置,另外也把数据格式变成论文说的listwise,发现效果也只是到0.68,0.70左右的样子,而且我也搜索了很多其他人的实现,发现他们也没有达到这样的效果,而且结果相差的挺大,其实这样的结果有点恶心,但是可能是代码环境不同吧。调参和震荡我目前也在学习,也非常感谢你提供的的run_classifier_wikiqa.py repo!如果您有时间,也可以查看我的目前的工作并且提供一些意见 https://github.com/WenRichard/compare-aggregate,最后,再次感谢!
Nice work! 也许你可以考虑在别的数据集上测试模型效果。不过这么看的话,我这边复现的模型效果确实差太多,不知道你有没有比对过这个差异?
Nice work! 也许你可以考虑在别的数据集上测试模型效果。不过这么看的话,我这边复现的模型效果确实差太多,不知道你有没有比对过这个差异?
目前暂时没有在其他数据集上测试效果,下一步应该会进行测试,我觉得模型效果差异可能是在tf的不同接口实现上,比如tf.layers.Dense这个函数和自己定义变量的WX+b好像在模型中产生的效果是有一些区别的,所以有的时候也比较困惑,毕竟一个想法可以有多种实现,每个实现带来的效果也不是相同的。
了解,thanks for your issue~
您好,请问您在实现compare-aggreate有没有达到论文中提到的效果呢?论文中的wikiqa的map是0.743,MRR是0.754,我用了自己写的代码和您写的代码,最后结果都不是很理想,如果您有什么实现细节,可以告知一下吗,感谢!