PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)
http://www.paddlepaddle.org/
Apache License 2.0
22.27k stars 5.6k forks source link

使用A100训练BI_lstm精度与文档中的指标不符 #67639

Open duqimeng opened 2 months ago

duqimeng commented 2 months ago

文档链接&描述 Document Links & Description

使用A100在paddleNLP的release2.9版本中使用ppaddlepaddle-gpu2.6.0.进行测试Bi-lstm,按照文档中的脚本进行训练,结果不符合,训练多次,结果不稳定存在误差,相关日志文件如下: workerlog -.txt

请提出你的建议 Please give your suggestion

可复现出文档结果

wanghuancoder commented 2 months ago

感谢问题反馈!请NLP的 @wawltor 帮忙看看,感谢!

wawltor commented 2 months ago

模型训练过程中有cuda的随机性和dropout策略,这些随机性的因素目前不能保证单次的Loss和Acc是一致的

duqimeng commented 2 months ago

我实验训练多次,四次实验都没有达到文档中验证集90.98的精度,低于文档标准的1%到2%