huanghuidmml / tfbert

基于tensorflow1.x的预训练模型调用,支持单机多卡、梯度累积,XLA加速,混合精度。可灵活训练、验证、预测。
58 stars 11 forks source link

单个epoch多个batch之间loss抖动过大 #6

Open vcbeaut opened 2 years ago

vcbeaut commented 2 years ago

使用作者代码训练数据,在模型收敛之后,loss抖动仍然很大,和其它代码相比则无此类问题(在英语训练语料上)