Naver-AI-Hackathon / AI-Speech

31 stars 5 forks source link

connection reset by peer에러 #104

Open HyunjiEllenPak opened 4 years ago

HyunjiEllenPak commented 4 years ago

Informations

CLI

WEB

What is your NSML login ID?

What is name of session in problem? (bug message or screenshot)

Steps to reproduce the problem

What is the expected behavior?

Suggested solutions 안녕하세요 팀Absolutely입니다. 저희 gpu 2개로 세션을 돌리던 중, 데이터셋 읽는 과정에서 아래와 같은 connection reset by peer 에러가 발생합니다.

여러번 시도해봤으나 gpu 2개를 할당하면 계속 이러한 에러가 발생하며 이것으로 인해 학습 진행이 되지 않습니다..... 오늘 온라인 결선 끝나기 전에는 이유를 알고 싶은데 빠른 답변 주시면 감사하겠습니다. 문제가 발생한 세션은 902번입니다.

image

감사합니다.

nsml-admin commented 4 years ago

안녕하세요.

위 에러 메세지 확인해보니

pytorch의 multiporcess를 사용하던중 발생한 에러 인것 같습니다.

해당부분은 유저 코드의 영역에서 발생한것이라 저희가 디버깅 해 드리는건 한계가 있을것같습니다.

감사합니다.

HyunjiEllenPak commented 4 years ago

@nsml-admin 답변감사드립니다. 그런데, gpu 1개 사용시에는, 지난 예선 데이터셋뿐만 아니라 이번 5만개 데이터셋에서도 에러가 발생하지 않은 코드입니다.. gpu 2개 사용할 때만 이러한 에러가 발생하는데, 혹시 이럴 수가 있는 건가요?ㅜㅜ