Open kratorado opened 3 months ago
感觉是个bug
我遇到了类似的问题,训练Qwen2-57B-A14B-Instruct的时候,脚本如下:
NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 swift sft --model_type qwen2-57b-a14b-instruct --model_id_or_path /publicdata/huggingface.co/Qwen/Qwen2-57B-A14B-Instruct --num_train_epochs 5 --batch_size 1 --gradient_accumulation_steps 16 --learning_rate 5e-5 --sft_type lora --dataset /workspace/huj11@xiaopeng.com/code/swift/data/train_all_0426_v5_swift.json --output_dir /dataset/huj11/ft_models/qwen2_57b_moe_0426_v5/ --use_flash_attn true --resume_from_checkpoint /dataset/huj11/ft_models/qwen2_57b_moe_0426_v5/qwen2-57b-a14b-instruct/v8-20240613-172241/checkpoint-1450
断点重连后报错:RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling cublasCreate(handle)
swift版本:2.2.0.dev0
我遇到了类似的问题,训练Qwen2-57B-A14B-Instruct的时候,脚本如下:
NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 swift sft --model_type qwen2-57b-a14b-instruct --model_id_or_path /publicdata/huggingface.co/Qwen/Qwen2-57B-A14B-Instruct --num_train_epochs 5 --batch_size 1 --gradient_accumulation_steps 16 --learning_rate 5e-5 --sft_type lora --dataset /workspace/huj11@xiaopeng.com/code/swift/data/train_all_0426_v5_swift.json --output_dir /dataset/huj11/ft_models/qwen2_57b_moe_0426_v5/ --use_flash_attn true --resume_from_checkpoint /dataset/huj11/ft_models/qwen2_57b_moe_0426_v5/qwen2-57b-a14b-instruct/v8-20240613-172241/checkpoint-1450
断点重连后报错:RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling
cublasCreate(handle)
swift版本:2.2.0.dev0
这个感觉是显存不足
用swift微调qwen1.5-14B时,初始运行很正常,但是断点续训后,报错了,报错信息如下
训练命令:
续传命令就增加了
环境:ubuntu22.04 cuda12.3 pytorch2.1.2 swift版本: 源码安装 hash=b039ea781834480349e23632cdfdf9df6484c506 硬件:V100 32G * 8