ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm系列模型)
https://ieeexplore.ieee.org/document/9599397
Apache License 2.0
9.56k stars 1.38k forks source link

没能复现CMRC2018的结果 #11

Closed beamind closed 5 years ago

beamind commented 5 years ago

老师好!我用论文开源的参数在CMRC2018数据集上实验了一下,没能得到论文中的结果,想请教一下我的做法哪里存在问题,非常感谢!

以下是我的实践情况:

我是在CMRC2018数据集上用论文开源的bert参数做fine tuning的,使用的论文中推荐的学习率3e-5,batch size为7,模型网络结果与google开源的中文bert一致。优化器使用的是google开源的AdamWeightDecayOptimizer。warmup_steps是50。

从数据集构造fine tuning样本方式为:首先将问题和原文拼接,如果拼接后文本长度超过最大长度限制,则从文本后面截掉多出的文本。

实践中也是在论文中说明的2个epoch时达到最佳效果,但是在dev集上只达到了EM:54.9,F1:75.5。

ymcui commented 5 years ago
  1. batch size过小会降低效果,这个在一些论文已经证实了。如果计算资源受限,则需要重新调整学习率。多数情况下,batch越小,学习率也要相应减小。
  2. warmup_steps太少,默认情况下warmup_proportions(比例)是0.1,即占总步数的10%
  3. 相关实现可以参考:https://github.com/ymcui/CMRC2018-DRCD-BERT
ymcui commented 5 years ago

先关闭issue了,如果有其他问题欢迎重新open。

nlper27149 commented 3 years ago

@beamind 请问复现结果了吗

beamind commented 3 years ago

@beamind 请问复现结果了吗

我参考了作者的实现https://github.com/ymcui/CMRC2018-DRCD-BERT,已经复现了结果

Alternate-D commented 1 year ago
  1. batch size过小会降低效果,这个在一些论文已经证实了。如果计算资源受限,则需要重新调整学习率。多数情况下,batch越小,学习率也要相应减小。
  2. warmup_steps太少,默认情况下warmup_proportions(比例)是0.1,即占总步数的10%
  3. 相关实现可以参考:https://github.com/ymcui/CMRC2018-DRCD-BERT

https://github.com/ymcui/CMRC2018-DRCD-BERT这个链接失效了,请问现在对应的链接是哪个呢