Closed Bothgone closed 1 year ago
如题,已按照教程修改分布式训练参数,但是每次训练完一个epoch就会StopIteration Exception in thread ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 13312)。 请问我该如何调整
找到问题了,是我修改的地方导致的,已经改好了
找到问题了,是我修改的地方导致的,已经改好了 您好,我遇到了同样的问题。请问您当时是修改了什么?谢谢
如题,已按照教程修改分布式训练参数,但是每次训练完一个epoch就会StopIteration Exception in thread ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 13312)。 请问我该如何调整