Closed ljymill closed 4 years ago
해당 에러는 말씀하신대로 멀티 GPU 환경에서 나는 에러로 파악됩니다.
전에 이런 문제가 있어서 해결했었는데, 파악이 되는대로 답글 남기겠습니다.
안녕하세요. 확인 결과 말씀해주신 대로, Multi-GPU 환경에서 해당 에러가 발생하는 것을 확인했습니다. 이슈 남겨주셔서 감사합니다. 방금 문제를 파악하여 수정한 코드를 push 해 두었으니, 새로 코드를 받으셔서 실행해보시면 될 것 같습니다. 다른 이슈가 있다면 언제든지 남겨주세요.
네 확인하였습니다
감사합니다.
안녕하세요
딥러닝 시작하는 초보입니다.
어제(2020-07-13) git 업데이트 후 single gpu로 training은 정상적으로 진행되지만, multi gpu로 training시 오류가 발생하였습니다.
실행은 ./run.sh의 기본 옵션으로 training을 진행하였습니다.
디버그 코드를 몇몇 찍어서 확인해봤는데 kospeech.models.seq2seq.decoder.py의 forward 까지는 오류가 없었으며, 이후에 오류가 발생하는것으로 보여집니다.
아래 오류 메시지를 전달드립니다.
감사합니다.
오류 메시지 File "./main.py", line 110, in
main()
File "./main.py", line 106, in main
train(opt)
File "./main.py", line 85, in train
checkpoint_path=opt.checkpoint_path
File "../kospeech/trainer/supervised_trainer.py", line 105, in train
train_queue, teacher_forcing_ratio, checkpoint_path)
File "../kospeech/trainer/supervised_trainer.py", line 194, in train_epoches
targets=scripts, teacher_forcing_ratio=teacher_forcing_ratio)[0]
File "/home/ubuntu/anaconda3/envs/kospeech2/lib/python3.7/site-packages/torch/nn/modules/module.py", line 550, in call
result = self.forward(*input, *kwargs)
File "/home/ubuntu/anaconda3/envs/kospeech2/lib/python3.7/site-packages/torch/nn/parallel/data_parallel.py", line 156, in forward
return self.gather(outputs, self.output_device)
File "/home/ubuntu/anaconda3/envs/kospeech2/lib/python3.7/site-packages/torch/nn/parallel/data_parallel.py", line 168, in gather
return gather(outputs, output_device, dim=self.dim)
File "/home/ubuntu/anaconda3/envs/kospeech2/lib/python3.7/site-packages/torch/nn/parallel/scatter_gather.py", line 68, in gather
res = gather_map(outputs)
File "/home/ubuntu/anaconda3/envs/kospeech2/lib/python3.7/site-packages/torch/nn/parallel/scatter_gather.py", line 63, in gather_map
return type(out)(map(gather_map, zip(outputs)))
File "/home/ubuntu/anaconda3/envs/kospeech2/lib/python3.7/site-packages/torch/nn/parallel/scatter_gather.py", line 62, in gather_map
for k in out))
File "/home/ubuntu/anaconda3/envs/kospeech2/lib/python3.7/site-packages/torch/nn/parallel/scatter_gather.py", line 62, in
for k in out))
File "/home/ubuntu/anaconda3/envs/kospeech2/lib/python3.7/site-packages/torch/nn/parallel/scatter_gather.py", line 63, in gather_map
return type(out)(map(gather_map, zip(*outputs)))
TypeError: expected sequence object with len >= 0 or a single integer