Closed wulinaaa closed 1 year ago
Could you double-check if you can get any results by torchpack dist-run -np 1 hostname
?
Yes, my hostname will be output.
I found the reason, which is that I wanted to download the CUDA version of Torch.
Could you double-check if you can get any results by
torchpack dist-run -np 1 hostname
?
I tried but there was no output. It was just left as it is in the picture for more than twenty minutes. Any suggestions?
你能仔细检查一下你是否可以得到任何结果吗?
torchpack dist-run -np 1 hostname
我试过了,但没有输出。它只是在图片中保持原样二十多分钟。有什么建议吗?
你这个输出有问题啊,正确的输出应该是你的主机名,你看看你的torchpack安装好了没
你能仔细检查一下你是否可以得到任何结果吗?
torchpack dist-run -np 1 hostname
我试过了,但没有输出。它只是在图片中保持原样二十多分钟。有什么建议吗?
你这个输出有问题啊,正确的输出应该是你的主机名,你看看你的torchpack安装好了没
上一张图里是因为加了-v
参数后会打印verbose信息, 如果不加-v
参数就没有任何输出了, 见下图:
torchpack应该是安装好了, 执行torchpack -h
会有输出, 如下图:
现在我遇到的问题是执行CUDA_VISIBLE_DEVICES="0,1" torchpack dist-run -np 2 python tools/test.py
时也没有任何响应, 执行几十分钟了也不输出任何信息.
你能仔细检查一下你是否可以得到任何结果吗?
torchpack dist-run -np 1 hostname
我试过了,但没有输出。它只是在图片中保持原样二十多分钟。有什么建议吗?
你这个输出有问题啊,正确的输出应该是你的主机名,你看看你的torchpack安装好了没
上一张图里是因为加了
-v
参数后会打印verbose信息, 如果不加-v
参数就没有任何输出了, 见下图:
- p2
torchpack应该是安装好了, 执行
torchpack -h
会有输出, 如下图:
- p3
现在我遇到的问题是执行
CUDA_VISIBLE_DEVICES="0,1" torchpack dist-run -np 2 python tools/test.py
时也没有任何响应, 执行几十分钟了也不输出任何信息.
你pip list看一下torchpack是不是0.3.1,如果没问题,可能是环境的问题,我之前跟你一样,没有任何响应,GPU也不占用
torchpack的版本是0.3.1
torchpack的版本是0.3.1
- p4 请问你最后怎么解决的呢? 没有响应也不占GPU, 我不知道该如何下手去找bug.
我重新搭建了环境
torchpack的版本是0.3.1
- p4 请问你最后怎么解决的呢? 没有响应也不占GPU, 我不知道该如何下手去找bug.
我重新搭建了环境
我已经在AutoDL平台的两台云服务器上搭建了环境, 都会卡住没法运行. 但是使用相同的指令在本地服务器上搭建环境是能够运行的. 所有服务器的系统都是 Ubuntu 20.04. 太奇怪了.
torchpack的版本是0.3.1
- p4 请问你最后怎么解决的呢? 没有响应也不占GPU, 我不知道该如何下手去找bug.
我重新搭建了环境
我已经在AutoDL平台的两台云服务器上搭建了环境, 都会卡住没法运行. 但是使用相同的指令在本地服务器上搭建环境是能够运行的. 所有服务器的系统都是 Ubuntu 20.04. 太奇怪了.
你的pytorch安装的是gpu版本吗
是的, 是GPU版本, cuda版本也是和nvcc -V
中的cuda版本一致的.
是的, 是GPU版本, cuda版本也是和
nvcc -V
中的cuda版本一致的.
我的是这样的,你可以参考一下。我觉得大概率是环境没有装好
是的, 是GPU版本, cuda版本也是和
nvcc -V
中的cuda版本一致的.我的是这样的,你可以参考一下。我觉得大概率是环境没有装好
好的谢谢, 我再重新搭建环境试试.
问题已解决. 在我的问题中, torchpack无响应的原因是底层的mpirun运行时无响应. debug过程如下:
apt-get install openmpi-bin openmpi-common libopenmpi-dev
apt-get install mpich
When I use the torchpack command and run like: torchpack dist-run -np 1 python train.py I have been running for several days, but there is no output. Can you please help me understand why? I set batch_size=1, it still no output.