shibing624 / MedicalGPT

MedicalGPT: Training Your Own Medical GPT Model with ChatGPT Training Pipeline. 训练医疗大模型,实现了包括增量预训练(PT)、有监督微调(SFT)、RLHF、DPO、ORPO。
Apache License 2.0
2.94k stars 452 forks source link

进行预训练的“model_name_or_path”参数也是HF格式的吗 #301

Closed Peter-of-Astora closed 5 months ago

Peter-of-Astora commented 5 months ago

在用pretraining.py尝试进行预训练时,不知道为何出现了以下报错: OSError: Incorrect path_or_model_id: '/home/work/models/chatglm3-6b'. Please provide either the path to a local folder or the repo_id of a model on the Hub.

我比较确定我使用的是hf_hub上下载的模型,所以不太清楚该报错的原因,以下是我的命令内容: python pretraining.py \ --model_type chatglm \ --model_name_or_path '/home/work/models/chatglm3-6b \ --train_file_dir ./data/pretrain \ --validation_file_dir ./data/pretrain \ --per_device_train_batch_size 3 \ --per_device_eval_batch_size 3 \ --do_train \ --do_eval \ --use_peft True \ --seed 42 \ --fp16 \ --max_train_samples 20000 \ --max_eval_samples 10 \ --num_train_epochs 1 \ --learning_rate 2e-4 \ --warmup_ratio 0.05 \ --weight_decay 0.01 \ --logging_strategy steps \ --logging_steps 10 \ --eval_steps 50 \ --evaluation_strategy steps \ --save_steps 500 \ --save_strategy steps \ --save_total_limit 3 \ --gradient_accumulation_steps 1 \ --preprocessing_num_workers 1 \ --block_size 128 \ --group_by_length True \ --output_dir outputs-pt-v1 \ --overwrite_output_dir \ --ddp_timeout 30000 \ --logging_first_step True \ --target_modules all \ --lora_rank 8 \ --lora_alpha 16 \ --lora_dropout 0.05 \ --torch_dtype float16 \ --device_map auto \ --report_to tensorboard \ --ddp_find_unused_parameters False \ --gradient_checkpointing True

shibing624 commented 5 months ago

写模型文件夹路径就可以。有问题先在colab跑下试试。

Peter-of-Astora commented 5 months ago

我改成了相对路径,结果就行了😂,大佬有什么头绪吗

shibing624 commented 5 months ago

路径写对就是了。