yuanzhoulvpi2017 / zero_nlp

中文nlp解决方案(大模型、数据、模型、训练、推理)
MIT License
2.81k stars 351 forks source link

internlm-sft 训练loss一直为0 #178

Open CmyuWZL opened 2 months ago

CmyuWZL commented 2 months ago

CUDA_VISIBLE_DEVICES=0,1,2,3 train_sft.py \ --deepspeed ds_zero2_no_offload.json \ --model_name_or_path internlm-7b \ --use_lora true \ --use_deepspeed true \ --data_path hz_sft_data_test \ --bf16 true \ --fp16 false \ --output_dir output_refuse_test \ --num_train_epochs 5 \ --per_device_train_batch_size 3 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 8 \ --evaluation_strategy "no" \ --save_strategy "epoch" \ --save_total_limit 3 \ --learning_rate 4e-4 \ --logging_steps 10 \ --tf32 False \ --model_max_length 2048 之后发现训练的loss一直是0,是由于没采用deepspeed的原因吗