没能复现CMRC2018的结果

ymcui / Chinese-BERT-wwm

Pre-Training with Whole Word Masking for Chinese BERT（中文BERT-wwm系列模型）

https://ieeexplore.ieee.org/document/9599397

Apache License 2.0

9.56k stars 1.38k forks source link

没能复现CMRC2018的结果 #11

Closed beamind closed 5 years ago

beamind commented 5 years ago

老师好！我用论文开源的参数在CMRC2018数据集上实验了一下，没能得到论文中的结果，想请教一下我的做法哪里存在问题，非常感谢！

以下是我的实践情况：

我是在CMRC2018数据集上用论文开源的bert参数做fine tuning的，使用的论文中推荐的学习率3e-5，batch size为7，模型网络结果与google开源的中文bert一致。优化器使用的是google开源的AdamWeightDecayOptimizer。warmup_steps是50。

从数据集构造fine tuning样本方式为：首先将问题和原文拼接，如果拼接后文本长度超过最大长度限制，则从文本后面截掉多出的文本。

实践中也是在论文中说明的2个epoch时达到最佳效果，但是在dev集上只达到了EM:54.9，F1:75.5。

ymcui commented 5 years ago

batch size过小会降低效果，这个在一些论文已经证实了。如果计算资源受限，则需要重新调整学习率。多数情况下，batch越小，学习率也要相应减小。
warmup_steps太少，默认情况下warmup_proportions（比例）是0.1，即占总步数的10%
相关实现可以参考：https://github.com/ymcui/CMRC2018-DRCD-BERT

ymcui commented 5 years ago

先关闭issue了，如果有其他问题欢迎重新open。

nlper27149 commented 3 years ago

@beamind 请问复现结果了吗

beamind commented 3 years ago

@beamind 请问复现结果了吗

我参考了作者的实现https://github.com/ymcui/CMRC2018-DRCD-BERT，已经复现了结果

Alternate-D commented 1 year ago

batch size过小会降低效果，这个在一些论文已经证实了。如果计算资源受限，则需要重新调整学习率。多数情况下，batch越小，学习率也要相应减小。

warmup_steps太少，默认情况下warmup_proportions（比例）是0.1，即占总步数的10%

相关实现可以参考：https://github.com/ymcui/CMRC2018-DRCD-BERT

https://github.com/ymcui/CMRC2018-DRCD-BERT这个链接失效了，请问现在对应的链接是哪个呢》