hiyouga / LLaMA-Factory

Efficiently Fine-Tune 100+ LLMs in WebUI (ACL 2024)
https://arxiv.org/abs/2403.13372
Apache License 2.0
31.15k stars 3.84k forks source link

PPO训练自动启动了CPU? #4081

Closed zzzengzhe closed 3 months ago

zzzengzhe commented 3 months ago

微信图片_20240605151210

你好,910B上启动ppo,发现训练时间要8个半小时,往上翻的时候看到这个警告,是不是训练的时候用了CPU,是什么原因?

MengqingCao commented 3 months ago

npu 还不支持这个算子,自动 fallback 到 cpu 上了,不过图里面其他算子仍会在 npu 执行

1737686924 commented 3 months ago

我的报错,脚本如下: ASCEND_RT_VISIBLE_DEVICES=0,1 deepspeed --num_gpus 2 --master_port=9901 src/train.py \ --deepspeed examples/deepspeed/ds_z3_offload_config.json \ --stage ppo \ --do_train true \ --model_name_or_path /data/applications/lmd-formal/backend/BaseModels/Qwen1.5-7B-Chat \ --reward_model saves/Qwen1.5-7B-Chat/sft/rm \ --dataset identity \ --template qwen \ --finetuning_type lora \ --lora_target q_proj,v_proj \ --output_dir saves/Qwen1.5-7B-Chat/sft/ppo \ --overwrite_cache \ --overwrite_output_dir \ --cutoff_len 1024 \ --preprocessing_num_workers 16 \ --per_device_train_batch_size 1 \ --gradient_accumulation_steps 4 \ --lr_scheduler_type cosine \ --logging_steps 1 \ --save_steps 100 \ --learning_rate 1e-5 \ --num_train_epochs 3.0 \ --max_samples 1000 \ --plot_loss \ --fp16 image 有解决方法嘛