使用A100训练BI_lstm精度与文档中的指标不符

PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice （『飞桨』核心框架，深度学习&机器学习高性能单机、分布式训练和跨平台部署）

http://www.paddlepaddle.org/

Apache License 2.0

22.27k stars 5.6k forks source link

Open duqimeng opened 2 months ago

duqimeng commented 2 months ago

使用A100在paddleNLP的release2.9版本中使用ppaddlepaddle-gpu2.6.0.进行测试Bi-lstm，按照文档中的脚本进行训练，结果不符合，训练多次，结果不稳定存在误差，相关日志文件如下： workerlog -.txt

可复现出文档结果

wanghuancoder commented 2 months ago

感谢问题反馈！请NLP的 @wawltor 帮忙看看，感谢！

wawltor commented 2 months ago

模型训练过程中有cuda的随机性和dropout策略，这些随机性的因素目前不能保证单次的Loss和Acc是一致的

duqimeng commented 2 months ago

我实验训练多次，四次实验都没有达到文档中验证集90.98的精度，低于文档标准的1%到2%