关于bert结果的一些疑问

DreamInvoker / GAIN

Source code for EMNLP 2020 paper: Double Graph Based Reasoning for Document-level Relation Extraction

MIT License

142 stars 30 forks source link

Closed VinnyHu closed 3 years ago

VinnyHu commented 3 years ago

您好，想请教您一些关于bert的问题。您在论文里面写的bert的初始学习率是1e-5 但是在代码的bert sh 里面是1e-3。还有就是，您论文里面bert结果的那次训练中，bert直接fix了？还是也会更新？谢谢！

DreamInvoker commented 3 years ago

您好，感谢您对我们工作的关注！

VinnyHu commented 3 years ago

您好，感谢您对我们工作的关注！

BERT刚开始是其余模块学习率（1e-3）的0.01倍，所以初始是1e-5。详细可以见code

我们训练的时候BERT的参数也会更新

好的，谢谢您的回复！

DreamInvoker commented 3 years ago

不客气！

VinnyHu commented 3 years ago

不客气！

您好，我最近跑了下您的代码，就是按照您上面说的，bert模块的学习率为1e-5，其余的为1e-3。其他的都没变，但是bert-base只能跑到59.27多。请问您有使用其他的bert训练trick吗？还可能是我参数设置之类的有问题？谢谢！

DreamInvoker commented 3 years ago

您好，由于本代码的随机种子没有固定，模型实验结果是有一定误差的，我们BERT base跑过的最差结果在60.4左右。我看您这个差的是有点多的，请问您是不是在README.md给定的依赖版本和系统环境版本下跑的呢，或者您试试多跑几次不同随机种子的实验呢？

VinnyHu commented 3 years ago

您好，由于本代码的随机种子没有固定，模型实验结果是有一定误差的，我们BERT base跑过的最差结果在60.4左右。我看您这个差的是有点多的，请问您是不是在README.md给定的依赖版本和系统环境版本下跑的呢，或者您试试多跑几次不同随机种子的实验呢？

请问下，您论文中跑出来的结果，就是按照您 sh 脚本里面设置的参数吗？谢谢！

DreamInvoker commented 3 years ago

是的。