zhijian-liu / torchpack

A neural network training interface based on PyTorch, with a focus on flexibility
https://pypi.org/project/torchpack/
MIT License
61 stars 15 forks source link

No output #44

Closed wulinaaa closed 1 year ago

wulinaaa commented 1 year ago

When I use the torchpack command and run like: torchpack dist-run -np 1 python train.py I have been running for several days, but there is no output. Can you please help me understand why? I set batch_size=1, it still no output.

zhijian-liu commented 1 year ago

Could you double-check if you can get any results by torchpack dist-run -np 1 hostname?

wulinaaa commented 1 year ago

Yes, my hostname will be output.

wulinaaa commented 1 year ago

I found the reason, which is that I wanted to download the CUDA version of Torch.

Sadwy commented 1 year ago

Could you double-check if you can get any results by torchpack dist-run -np 1 hostname?

I tried but there was no output. It was just left as it is in the picture for more than twenty minutes. Any suggestions? image

wulinaaa commented 1 year ago

你能仔细检查一下你是否可以得到任何结果吗?torchpack dist-run -np 1 hostname

我试过了,但没有输出。它只是在图片中保持原样二十多分钟。有什么建议吗? image

你这个输出有问题啊,正确的输出应该是你的主机名,你看看你的torchpack安装好了没

Sadwy commented 1 year ago

你能仔细检查一下你是否可以得到任何结果吗?torchpack dist-run -np 1 hostname

我试过了,但没有输出。它只是在图片中保持原样二十多分钟。有什么建议吗? image

你这个输出有问题啊,正确的输出应该是你的主机名,你看看你的torchpack安装好了没

上一张图里是因为加了-v参数后会打印verbose信息, 如果不加-v参数就没有任何输出了, 见下图:

torchpack应该是安装好了, 执行torchpack -h会有输出, 如下图:

现在我遇到的问题是执行CUDA_VISIBLE_DEVICES="0,1" torchpack dist-run -np 2 python tools/test.py时也没有任何响应, 执行几十分钟了也不输出任何信息.

wulinaaa commented 1 year ago

你能仔细检查一下你是否可以得到任何结果吗?torchpack dist-run -np 1 hostname

我试过了,但没有输出。它只是在图片中保持原样二十多分钟。有什么建议吗? image

你这个输出有问题啊,正确的输出应该是你的主机名,你看看你的torchpack安装好了没

上一张图里是因为加了-v参数后会打印verbose信息, 如果不加-v参数就没有任何输出了, 见下图:

  • p2 image

torchpack应该是安装好了, 执行torchpack -h会有输出, 如下图:

  • p3 image

现在我遇到的问题是执行CUDA_VISIBLE_DEVICES="0,1" torchpack dist-run -np 2 python tools/test.py时也没有任何响应, 执行几十分钟了也不输出任何信息.

你pip list看一下torchpack是不是0.3.1,如果没问题,可能是环境的问题,我之前跟你一样,没有任何响应,GPU也不占用

Sadwy commented 1 year ago

torchpack的版本是0.3.1

wulinaaa commented 1 year ago

torchpack的版本是0.3.1

  • p4 image 请问你最后怎么解决的呢? 没有响应也不占GPU, 我不知道该如何下手去找bug.

我重新搭建了环境

Sadwy commented 1 year ago

torchpack的版本是0.3.1

  • p4 image 请问你最后怎么解决的呢? 没有响应也不占GPU, 我不知道该如何下手去找bug.

我重新搭建了环境

我已经在AutoDL平台的两台云服务器上搭建了环境, 都会卡住没法运行. 但是使用相同的指令在本地服务器上搭建环境是能够运行的. 所有服务器的系统都是 Ubuntu 20.04. 太奇怪了.

wulinaaa commented 1 year ago

torchpack的版本是0.3.1

  • p4 image 请问你最后怎么解决的呢? 没有响应也不占GPU, 我不知道该如何下手去找bug.

我重新搭建了环境

我已经在AutoDL平台的两台云服务器上搭建了环境, 都会卡住没法运行. 但是使用相同的指令在本地服务器上搭建环境是能够运行的. 所有服务器的系统都是 Ubuntu 20.04. 太奇怪了.

你的pytorch安装的是gpu版本吗

Sadwy commented 1 year ago

是的, 是GPU版本, cuda版本也是和nvcc -V中的cuda版本一致的. image

wulinaaa commented 1 year ago

是的, 是GPU版本, cuda版本也是和nvcc -V中的cuda版本一致的. image

image 我的是这样的,你可以参考一下。我觉得大概率是环境没有装好

Sadwy commented 1 year ago

是的, 是GPU版本, cuda版本也是和nvcc -V中的cuda版本一致的. image

image 我的是这样的,你可以参考一下。我觉得大概率是环境没有装好

好的谢谢, 我再重新搭建环境试试.

Sadwy commented 1 year ago

问题已解决. 在我的问题中, torchpack无响应的原因是底层的mpirun运行时无响应. debug过程如下:

  1. 使用apt-get安装torchpack底层库openmpi.
    • apt-get install openmpi-bin openmpi-common libopenmpi-dev
    • 运行时无响应无输出, mpirun无响应.
  2. 使用apt-get安装mpich, 试图用其代替openmpi.
  3. OpenMPI官网下载压缩包解压安装openmpi.
    • 问题解决.