Closed Peter-of-Astora closed 5 months ago
在用pretraining.py尝试进行预训练时,不知道为何出现了以下报错: OSError: Incorrect path_or_model_id: '/home/work/models/chatglm3-6b'. Please provide either the path to a local folder or the repo_id of a model on the Hub.
我比较确定我使用的是hf_hub上下载的模型,所以不太清楚该报错的原因,以下是我的命令内容: python pretraining.py \ --model_type chatglm \ --model_name_or_path '/home/work/models/chatglm3-6b \ --train_file_dir ./data/pretrain \ --validation_file_dir ./data/pretrain \ --per_device_train_batch_size 3 \ --per_device_eval_batch_size 3 \ --do_train \ --do_eval \ --use_peft True \ --seed 42 \ --fp16 \ --max_train_samples 20000 \ --max_eval_samples 10 \ --num_train_epochs 1 \ --learning_rate 2e-4 \ --warmup_ratio 0.05 \ --weight_decay 0.01 \ --logging_strategy steps \ --logging_steps 10 \ --eval_steps 50 \ --evaluation_strategy steps \ --save_steps 500 \ --save_strategy steps \ --save_total_limit 3 \ --gradient_accumulation_steps 1 \ --preprocessing_num_workers 1 \ --block_size 128 \ --group_by_length True \ --output_dir outputs-pt-v1 \ --overwrite_output_dir \ --ddp_timeout 30000 \ --logging_first_step True \ --target_modules all \ --lora_rank 8 \ --lora_alpha 16 \ --lora_dropout 0.05 \ --torch_dtype float16 \ --device_map auto \ --report_to tensorboard \ --ddp_find_unused_parameters False \ --gradient_checkpointing True
写模型文件夹路径就可以。有问题先在colab跑下试试。
我改成了相对路径,结果就行了😂,大佬有什么头绪吗
路径写对就是了。
在用pretraining.py尝试进行预训练时,不知道为何出现了以下报错: OSError: Incorrect path_or_model_id: '/home/work/models/chatglm3-6b'. Please provide either the path to a local folder or the repo_id of a model on the Hub.
我比较确定我使用的是hf_hub上下载的模型,所以不太清楚该报错的原因,以下是我的命令内容: python pretraining.py \ --model_type chatglm \ --model_name_or_path '/home/work/models/chatglm3-6b \ --train_file_dir ./data/pretrain \ --validation_file_dir ./data/pretrain \ --per_device_train_batch_size 3 \ --per_device_eval_batch_size 3 \ --do_train \ --do_eval \ --use_peft True \ --seed 42 \ --fp16 \ --max_train_samples 20000 \ --max_eval_samples 10 \ --num_train_epochs 1 \ --learning_rate 2e-4 \ --warmup_ratio 0.05 \ --weight_decay 0.01 \ --logging_strategy steps \ --logging_steps 10 \ --eval_steps 50 \ --evaluation_strategy steps \ --save_steps 500 \ --save_strategy steps \ --save_total_limit 3 \ --gradient_accumulation_steps 1 \ --preprocessing_num_workers 1 \ --block_size 128 \ --group_by_length True \ --output_dir outputs-pt-v1 \ --overwrite_output_dir \ --ddp_timeout 30000 \ --logging_first_step True \ --target_modules all \ --lora_rank 8 \ --lora_alpha 16 \ --lora_dropout 0.05 \ --torch_dtype float16 \ --device_map auto \ --report_to tensorboard \ --ddp_find_unused_parameters False \ --gradient_checkpointing True