Closed growmuye closed 5 months ago
合并后,清理显存了没
合并后,清理显存了没
我当时以为是自己的环境问题,于是重新换了一个新环境,在新环境下测试合并后模型也是同样的问题; 我的问题描述不够清楚,补充如下:
每一个lora_model都是为一个业务单独微调的如:识别用户求职意图。现象是这样的:当我合并了lora_model1~6(合并-6)后,lora_model2的prompt总会导致卡死,几乎100%复现;并且✅的prompt总可以正常运行,非常奇怪。
@shibing624 问题范围定位到了,以下是lora_mode2的测试数据集中prompt片段: """prompt片段开始 <功能清单>: 功能:... 功能:... 功能:... 功能:... 功能:... 功能:... 功能:... 功能:... 功能:... 功能:无法判断 功能说明:不属于上述描述的功能。 </功能清单> """prompt片段结束
其中:当移除”无法判断“功能项时,prompt可正常执行,添加该项后prompt执行卡死(多种排列组合,甚至将该项添加到其他业务的prompt中后也会卡死)。至于为什么会这样,目前还未弄明白。
收到,我也不清楚。
@growmuye 这个问题弄明白了吗?我也遇到了类似的问题
@growmuye 这个问题弄明白了吗?我也遇到了类似的问题
抱歉,我也没定位到问题。不过我改变了方案,该问题也不存在了,不知道是否对你有用:
@growmuye 感谢回复~很有用~
合并步骤: step1:lora_mode1 合并 base_model 输出 merge_model1 step2:lora_mode2 合并 merge_model1 输出 merge_model2 step3:lora_mode3 合并 merge_model2 输出 merge_model3
合并脚本(总计将7个模型合): CUDA_VISIBLE_DEVICES= nohup python merge_peft_adapter.py --model_type baichuan --base_model /temp/LLM/baichuan2-13b-chat --tokenizer_path /temp/LLM/baichuan2-13b-chat --lora_model /temp/merge_model/ --output_dir *** > ./logs/log-merge-v1.txt 2>&1 &
采用fastapi启动后(4张卡,每张30G左右内存),稳定的出现:
行标题:合并-{count},如count=7代表合并了lorad1~lorad7 列标题:多个基于baichuan2-13b-chat 完全独立训练的lorad_model模型 其中❌代表卡死,并且可稳定复现 PS:作者如果对这个问题感兴趣,可留言加好友,我这里可100%配合