分布式训练性能BUG

PaddlePaddle / Knover

Large-scale open domain KNOwledge grounded conVERsation system based on PaddlePaddle

Apache License 2.0

673 stars 131 forks source link

需要你提供下完整的训练情况哈，包括机器环境，以及训练配置机器环境：GPU类型、GPU driver版本，CUDA版本、CuDNN版本、NCCL版本、Paddle版本训练配置：训练模型的规模、batch size设置、训练用数据（最好直接用knover自带的data/example来测试）、其他可能影响训练性能的配置目前我测试使用 fleetrun train.py （即scripts/distributed/train.sh）在自带的example数据上，跑 projects/PLATO-2/pretrain/24L_train_stage-1.conf 在V100单卡上，CUDA10.2，Paddle2.2.2 使用use_amp=true（2.5steps/s）是会显著快于use_amp=false（0.75steps/s）

PaddlePaddle / Knover

分布式训练性能BUG #139