DevilExileSu / transformer

transformer,机器翻译,中文--英文
65 stars 9 forks source link

我训练下来不收敛 #6

Open AlbertMa123 opened 6 months ago

AlbertMa123 commented 6 months ago

你好,我拿你的代码训练,1-12轮loss全部在5.0左右,毫不收敛,能不能看看你的loss曲线? 以及,我训练为什么会这样啊? 谢谢大佬!

DevilExileSu commented 6 months ago

该项目本身是一个学习性质的项目,项目模型的搭建参考了bentrevett/pytorch-seq2seq,在其之上添加了自制的数据集,如果有地方误导了你我很抱歉。 https://github.com/DevilExileSu/transformer/blob/9fe27426903d19f43c549e189a714fecef29c48b/logs/info.log#L9406-L9416 你可以在项目的日志文件中看到,README 中的模型最后经过36轮训练后 loss 也只是在4.x,可能是因为数据集不够大,也可能是lr、batch_size、dropout、优化器等等设置不合理。 建议你可以参看以下几个项目: https://github.com/Kyubyong/transformer https://github.com/graykode/nlp-tutorial https://github.com/LaoGong-zp/Transformer