THUDM / VisualGLM-6B

Chinese and English multimodal conversational language model | 多模态中英双语对话语言模型
Apache License 2.0
4.07k stars 414 forks source link

微调模型nccl报错 #270

Open kydbj opened 11 months ago

kydbj commented 11 months ago

这是我尝试运行单卡/多卡微调时出现的错误消息。出现了下面这个错误

misc/cudawrap.cc:90 NCCL WARN Failed to find CUDA library in NULL (NCCL_CUDA_PATH=NULL )

image

然后我把cuda文件位置添加到这个 NCCL_CUDA_PATH 变量,运行单卡/多卡微调时还会出错

misc/cudawrap.cc:90 NCCL WARN Failed to find CUDA library in /usr/local/cuda-12.0 (NCCL_CUDA_PATH=/usr/local/cuda-12.0)

image

我在网上找了一个和这个问题相似的提问, https://github.com/NVIDIA/nccl-tests/issues/115

请您看看是什么问题?

zhyx12 commented 11 months ago

我在其他project里遇到过类似的问题,搜索到了这个issue,具体来说,python包都是正常安装的,但是就是在DDP模型构建的时候出错了,exitcocde=-11。

我尝试了在一开始运行时设置init_process_group的backend为gloo,是可以跑起来的,但是速度会降一些。

回到nccl后端,把pytorch版本降低到1.10.0+cu113(不一定非得是这个,可以多尝试几个版本)之后,运行就正常了,可以试试。@kydbj