Open kuailexiaohunzi opened 4 weeks ago
Maybe the version of pytorch or cuda is incorrect
Maybe the version of pytorch or cuda is incorrect
The pytorch version is 1.13 and cuda is 11.7, which matches
是多卡训练吗?多卡训练dist_utils.py那个节点gpu数要改成自己的gpu数,另外命令行的mpiexec -n 4的4也要换成自己的gpu数
是多卡训练吗?多卡训练dist_utils.py那个节点gpu数要改成自己的gpu数,另外命令行的mpiexec -n 4的4也要换成自己的gpu数
不是,单卡,我甚至没有用mpiexec -n这个命令
添加环境变量RDMAV_FORK_SAFE吧看看,可能是为了安全不让直接fork子进程 https://docs.nvidia.com/networking/display/rdmaawareprogrammingv17/ibv_fork_init
添加环境变量RDMAV_FORK_SAFE吧看看,可能是为了安全不让直接fork子进程 https://docs.nvidia.com/networking/display/rdmaawareprogrammingv17/ibv_fork_init
OK,之后试试
添加环境变量RDMAV_FORK_SAFE吧看看,可能是为了安全不让直接fork子进程 https://docs.nvidia.com/networking/display/rdmaawareprogrammingv17/ibv_fork_init
在cm.train文件里添加了,但还是不行,报同样的错误
添加环境变量RDMAV_FORK_SAFE吧看看,可能是为了安全不让直接fork子进程 https://docs.nvidia.com/networking/display/rdmaawareprogrammingv17/ibv_fork_init
在cm.train文件里添加了,但还是不行,报同样的错误
在/etc/profile里添加,作为系统环境变量
嗷嗷,OK
在/etc/profile里添加,作为系统环境变量
记得保存后用source刷新一下
OK,感谢
When using CT mode for training, the following errors occur. Does anyone know how to solve them![image](https://github.com/openai/consistency_models/assets/145735082/62822a79-bc12-447c-bfdf-028dc794589e)