-
### Is there an existing issue for this?
- [X] I have searched the existing issues
### Current Behavior
P-tuning一个1000条数据集,loss一直为0,何解?没有用load_in_int8 和quan4 。
### Expected Behavior
_No response_…
-
感谢作者的项目!
我想问个问题就是每次多卡运行的时候因为分词得花很多时间,所以到30分钟的时候总会报错,后来查看 pytorch的ddp运行参数里有:
init_process_group(
backend: Union[str, Backend] = None,
init_method: Optional[str] = None,
timeout: timede…
-
如题,因为在sft的过程中可能时间耗时很长,是否支持中间过程的checkpoint进行merge?我尝试直接修改--peft_model_path参数,修改为直接的checkpoint目录,如: ./chatglm-sft/20231103/checkpoint-52000,发现报错,信息如下,能否指点一下,感谢!
`python merge_peft_adapter.py --model_ty…
-
### System Info
torch 2.1.2+cu121
transformers 4.33.0
transformers-stream-generator 0.0.4
peft 0.7.1
accelerate 0.25.0
deepspeed 0.12.5
nvcc --version release 12.2, V12.2.128
Build cuda_12.2.r…
nuoma updated
9 months ago
-
python merge_peft_adapter.py --model_type bloom \
> --base_model_name_or_path merged-sft --peft_model_path outputs-rm-v1 --output_dir merged-rm/
Namespace(base_model_name_or_path='merged-sft', m…
-
### System Info
```
Traceback (most recent call last):
File "/apdcephfs_teg_2/share_1367250/flemingxu/MedicalGPT/supervised_finetuning.py", line 1307, in
main()
File "/apdcephfs_teg_2/sh…
-
只加载sft的权重脚本:
```
CUDA_VISIBLE_DEVICES=1 python src/train_bash.py \
--stage sft \
--model_name_or_path THUDM/chatglm2-6b \
--do_predict \
--dataset ft_test \
--dataset_dir d…
-
### Describe the bug
不好意思徐老师,打扰您了,老师希望你帮帮忙呀,我在研究您的项目好几天了,卡在两个机器全量训练几天没有解决。
具体详情参考上一个问题:https://github.com/shibing624/MedicalGPT/issues/318
我有几个问题老师:
1.按照您文档说明:30B模型全量参数更新,需要600GB的显存,我现在两个机器1280G…
-
torchrun --nnodes 1 --nproc_per_node 3 supervised_finetuning_test.py \
--model_type chatglm \
--model_name_or_path /data/hongshen/models/chatglm-6b \
--train_file_dir /data/kanlong/data…
-
### Describe the Question
Please provide a clear and concise description of what the question is.
想请教一下,Alpaca 和 Vicuna 这两个模板在格式上有什么不一样吗
我了解到的是:相较于Alpaca,Vicuna在训练中将序列长度由512扩展到了2048,并且数据是从 Sh…