Closed enterpine closed 5 years ago
what's the learning rate and the num_epochs when tranning AEN-glove MHA model 您好,请问一下AEN-glove MHA训练时候的学习率和迭代次数是多少呢,感觉收敛的特别慢,迭代100次都没达到论文中的0.7178~
非基于BERT的模型,学习率使用Adam优化器的默认值0.001。epoch不需要那么大,一般10~20即可。
what's the learning rate and the num_epochs when tranning AEN-glove MHA model 您好,请问一下AEN-glove MHA训练时候的学习率和迭代次数是多少呢,感觉收敛的特别慢,迭代100次都没达到论文中的0.7178~