Closed bulindun closed 1 year ago
使用 sh train.sh
训练时,是一开始就马上报错吗?还是在哪一个环节报错了?
直接执行 python train_semi.py
会报错是因为没有用分布式训练,而我们的代码默认是分布式训练的,因此需要 sh train.sh
进行训练
`谢谢您的及时回复!我是在windows中的pycharm里面运行的程序。我也看到了之前有人询问过相同的问题,但是我按照那里的方法并没有成功调通。我在使用 sh train.sh 训练时,错误信息如下:
似乎不是代码里报错,您可以检查一下 torch 和 cuda 版本是否匹配,以及一般使用到 cuda 的 torch 程序是否能跑起来:
import torch
a = torch.tensor(3, 224, 224).cuda()
print(a)
似乎不是代码里报错,您可以检查一下 torch 和 cuda 版本是否匹配,以及一般使用到 cuda 的 torch 程序是否能跑起来:
import torch a = torch.tensor(3, 224, 224).cuda() print(a)
感谢您的回复!我现在检查一下,谢谢您
似乎不是代码里报错,您可以检查一下 torch 和 cuda 版本是否匹配,以及一般使用到 cuda 的 torch 程序是否能跑起来:
import torch a = torch.tensor(3, 224, 224).cuda() print(a)
作者您好,我的环境都是按照README中的指示搭建的,python3.6.9 torch1.8.1 cuda10.2 现在运行train.sh是这样的 我修改了dist_c10d.py中的代码如下: 但还是报错,请问这是什么情况啊?
作者您好,非常感谢您做出的相关工作。我在github下载了您的代码之后,按照readme文档配置了相关环境,但是在运行train-semi时保错: C:\Users\STD1\anaconda3\envs\u2pl\python.exe C:\Users\STD1\Desktop\U2PL-main\train_semi.py Traceback (most recent call last): File "C:\Users\STD1\Desktop\U2PL-main\train_semi.py", line 661, in
main()
File "C:\Users\STD1\Desktop\U2PL-main\train_semi.py", line 62, in main
rank, word_size = setup_distributed(port=args.port)
File "C:\Users\STD1\Desktop\U2PL-main\u2pl\utils\dist_helper.py", line 36, in setup_distributed
rank = int(os.environ["RANK"])
File "C:\Users\STD1\anaconda3\envs\u2pl\lib\os.py", line 669, in getitem
raise KeyError(key) from None
KeyError: 'RANK'
另外,我在按照readme文档使用sh train.sh 1 23500 时,也会有报错: Traceback (most recent call last): File "C:\Users\STD1\anaconda3\envs\u2pl\lib\runpy.py", line 193, in _run_module_as_main "main", mod_spec) File "C:\Users\STD1\anaconda3\envs\u2pl\lib\runpy.py", line 85, in _run_code exec(code, run_globals) File "C:\Users\STD1\anaconda3\envs\u2pl\lib\site-packages\torch\distributed\launch.py", line 340, in
main()
File "C:\Users\STD1\anaconda3\envs\u2pl\lib\site-packages\torch\distributed\launch.py", line 326, in main
sigkill_handler(signal.SIGTERM, None) # not coming back
File "C:\Users\STD1\anaconda3\envs\u2pl\lib\site-packages\torch\distributed\launch.py", line 301, in sigkill_handler
raise subprocess.CalledProcessError(returncode=last_return_code, cmd=cmd)
subprocess.CalledProcessError: Command '['C:\Users\STD1\anaconda3\envs\u2pl\python.exe', '-u', '../../../../train_sup.py', '--local_rank=0', '--config=config.yaml', '--seed', '2', '--port', '23500']' returned non-zero exit sta
tus 1.
Killing subprocess 10432
我在网上搜查了相关解决方法,但目前都无法有效解决,请问这些问题应该怎样解决呢?非常抱歉叨扰到您,如有冒犯,敬请谅解