liangwq / Chatglm_lora_multi-gpu

chatglm多gpu用deepspeed和
404 stars 61 forks source link

一张卡能运行,两张卡报错 #3

Closed Flat-Chen closed 1 year ago

Flat-Chen commented 1 year ago

3090*2 --nproc_per_node=2 改为1可以正常运行

image

image

没有找到更加详细的报错日志,小白冒昧问一下,低级问题麻烦大佬不要嘲笑

Flat-Chen commented 1 year ago

multi_gpu_fintune_belle.py代码运行到 model, optimizer, train_dataloader = accelerator.prepare(model, optimizer, train_dataloader) 开始报错

liangwq commented 1 year ago

看报错事accelerate给的,你试试把accelerate升级,peft按require txt里面给的安装下

Flat-Chen commented 1 year ago

感谢大佬,之前没有描述清楚是用docker环境运行 通过寻找accelerate的报错找到了一个issues: https://github.com/huggingface/accelerate/issues/1254 docker run -it --network host 解决 再次感谢大佬!

看报错事accelerate给的,你试试把accelerate升级,peft按require txt里面给的安装下

fancyerii commented 1 year ago

感谢大佬,之前没有描述清楚是用docker环境运行 通过寻找accelerate的报错找到了一个issues: huggingface/accelerate#1254 docker run -it --network host 解决 再次感谢大佬!

看报错事accelerate给的,你试试把accelerate升级,peft按require txt里面给的安装下

我用docker run -it --network host好像也不行,你用了之后就好了吗?

Flat-Chen commented 1 year ago

--network host --ipc host

感谢大佬,之前没有描述清楚是用docker环境运行 通过寻找accelerate的报错找到了一个issues: huggingface/accelerate#1254 docker run -it --network host 解决 再次感谢大佬!

看报错事accelerate给的,你试试把accelerate升级,peft按require txt里面给的安装下

我用docker run -it --network host好像也不行,你用了之后就好了吗?