Open kerry-weic opened 1 week ago
建议你试试单卡试试,我这边用单卡没问题
之前双卡训练几十万数据量的时候也正常,这次过了百万。但感觉应该不是数据量的问题导致的把,可能是一个偶发的问题
这好像是卡间NCCL通信问题。对于多卡4090,一般使用需要加上环境变量:NCCL_P2P_DISABLE=1 具体的命令为 NCCL_P2P_DISABLE=1 CUDA_VISIBLE_DEVICES=0,1 python3 -m paddle.distributed.launch --gpus '0,1' tools/train.py -c configs/rec/SVTRv2/rec_svtrv2_ch.yml -o Global.pretrained_model=./pretrained_model/openatom_rec_svtrv2_ch_train/best_accuracy
我执行试试,多谢~
🔎 Search before asking
🐛 Bug (问题描述)
使用最新SVTRv2微调ocr模型,显卡两个4090,cuda版本为:12.4,总轮次设定100轮在84轮时出现异常,异常日志如下:
🏃♂️ Environment (运行环境)
🌰 Minimal Reproducible Example (最小可复现问题的Demo)