Closed famt0531 closed 12 months ago
你好,源代码和论文中学习率和weight_decay描述的不一致,源代码中学习率最终下降到34-6,weight_decay是1e-3,但是在论文中这两者分别是3e-5和1e-4。请问在模型实际训练中使用的是哪种组合呢?
Hi,学习率的最小值影响不大。 如果模型训练没飞的话,weight_decay 小一些也没关系,调大点训飞的概率小。 总体来说二者都对模型性能没多大影响。
你好,源代码和论文中学习率和weight_decay描述的不一致,源代码中学习率最终下降到34-6,weight_decay是1e-3,但是在论文中这两者分别是3e-5和1e-4。请问在模型实际训练中使用的是哪种组合呢?