Open WuDiDaBinGe opened 2 years ago
文章中说学习率最大6.25e-5,noam schedule更小,要用这么小的学习率吗?
您可以根据自己所用的bs调一下试试
您可以根据自己所用的bs调一下试试 文章中所有的 8(per_gpu)64(gradient accumulation)4(gpus) = 2048 那我128 2 6 的话应该调整成两倍吧(bs增大多少倍数 学习率相应增大)
文章中说学习率最大6.25e-5,noam schedule更小,要用这么小的学习率吗?