thu-coai / CDial-GPT

A Large-scale Chinese Short-Text Conversation Dataset and Chinese pre-training dialog models
MIT License
1.78k stars 255 forks source link

学习率的问题?学习率最大6.25e-5 #97

Open WuDiDaBinGe opened 2 years ago

WuDiDaBinGe commented 2 years ago

文章中说学习率最大6.25e-5,noam schedule更小,要用这么小的学习率吗?

silverriver commented 2 years ago

您可以根据自己所用的bs调一下试试

WuDiDaBinGe commented 2 years ago

您可以根据自己所用的bs调一下试试 image 文章中所有的 8(per_gpu)64(gradient accumulation)4(gpus) = 2048 那我128 2 6 的话应该调整成两倍吧(bs增大多少倍数 学习率相应增大)