Closed wind818 closed 11 months ago
第二个worker的index应该是1
第二个worker的index应该是1
是我自己填错了,实际运行时是第二个worker的inddex是1,这个nccl问题在我测试了多个镜像都存在
第二个worker的index应该是1
镜像是按照官网的安装提示制作的,并且代码和启动命令,都是按照文档中步骤测试的,能否提供一个能流程运行改代码的镜像
第二个worker的index应该是1
镜像是按照官网的安装提示制作的,并且代码和启动命令,都是按照文档中步骤测试的,能否提供一个能流程运行改代码的镜像 请问解决了吗?我测试也遇到相同问题。
如果是在一台机器上启动两个worker,可以为每个worker划分下GPU列表,配置CUDA_VISIBLE_DEVICES变量。 比如第一个worker用GPU 0,1,第二个worker用GPU 2,3,可以在bash命令前加上 CUDA_VISIBLE_DEVICES=0,1 或CUDA_VISIBLE_DEVICES=2,3
@SueeH 反馈export NCCL_SOCKET_IFNAME 到正确的地址 可以跑
@SueeH 反馈export NCCL_SOCKET_IFNAME 到正确的地址 可以跑 正解,问题已解决
环境:
基于nvcr.io/nvidia/tensorflow:21.12-tf1-py3构建的容器
脚本:
FastNN的resnet脚本
启动命令
报错