一张卡能运行，两张卡报错

liangwq / Chatglm_lora_multi-gpu

chatglm多gpu用deepspeed和

404 stars 61 forks source link

一张卡能运行，两张卡报错 #3

Closed Flat-Chen closed 1 year ago

Flat-Chen commented 1 year ago

3090*2 --nproc_per_node=2 改为1可以正常运行

没有找到更加详细的报错日志，小白冒昧问一下，低级问题麻烦大佬不要嘲笑

Flat-Chen commented 1 year ago

multi_gpu_fintune_belle.py代码运行到 model, optimizer, train_dataloader = accelerator.prepare(model, optimizer, train_dataloader) 开始报错

liangwq commented 1 year ago

看报错事accelerate给的，你试试把accelerate升级，peft按require txt里面给的安装下

Flat-Chen commented 1 year ago

感谢大佬，之前没有描述清楚是用docker环境运行通过寻找accelerate的报错找到了一个issues： https://github.com/huggingface/accelerate/issues/1254 docker run -it --network host 解决再次感谢大佬！

看报错事accelerate给的，你试试把accelerate升级，peft按require txt里面给的安装下

fancyerii commented 1 year ago

感谢大佬，之前没有描述清楚是用docker环境运行通过寻找accelerate的报错找到了一个issues： huggingface/accelerate#1254 docker run -it --network host 解决再次感谢大佬！

看报错事accelerate给的，你试试把accelerate升级，peft按require txt里面给的安装下

我用docker run -it --network host好像也不行，你用了之后就好了吗？

Flat-Chen commented 1 year ago

--network host --ipc host

感谢大佬，之前没有描述清楚是用docker环境运行通过寻找accelerate的报错找到了一个issues： huggingface/accelerate#1254 docker run -it --network host 解决再次感谢大佬！

看报错事accelerate给的，你试试把accelerate升级，peft按require txt里面给的安装下

我用docker run -it --network host好像也不行，你用了之后就好了吗？