AI-GrandChallenge / round-1

14 stars 11 forks source link

데이터로더 워커 에러에 관하여 #110

Open kboseong opened 4 years ago

kboseong commented 4 years ago

안녕하세요 대회운영을 위해 노력해주셔서 감사드립니다. NSML상에서 대회를 진행하는 것이 조금 진입장벽은 있을 수 있지만 가장 공정하고 깔끔한 방법이라 생각됩니다. 항상 여러 대회때 마다 수고해주셔서 감사드립니다.

RuntimeError: DataLoader worker (pid(s) 115) exited unexpectedly

가 submition시 간헐적으로 발생합니다. 어제도 한번 발생해서 똑같은 세션을 재실행했었습니다. 오늘도 조금전 한번 발생하네요. 다시 실행시키면 어제처럼 해결될 것으로 보이긴 합니다만 앞으로 제출기회가 많지 않은 상황에서 조금 불편한 에러인것 같습니다. CPU를 서로다른 세션간에 공유하지는 않을 것 같은데, 발생원인을 알 수 있을까요?

bluebrush commented 4 years ago

@kboseong 님, 정상/비정상 세션 하나씩 sessionID 제공이 가능하실까요?

kboseong commented 4 years ago

@kboseong 님, 정상/비정상 세션 하나씩 sessionID 제공이 가능하실까요?

submit session 라 ID가 정확하지는 않지만 아래와같습니다.

t0055/tr-3/88 - 비정상 t0055/tr-3/89 - 정상

두개 모두 t0055/tr-3/87 을 submition하였습니다.

감사합니다.

nsml-admin commented 4 years ago

보통 위 에러는 메모리 문제때문에 발생했던걸로 기억하는데요,

run 을할때 -c 옵션으로 더많은 양을 할당하거나(default 2개) --memory 옵션으로 메모리를 더 할당받도록 하면 해결될거 같습니다.

kboseong commented 4 years ago

보통 위 에러는 메모리 문제때문에 발생했던걸로 기억하는데요,

run 을할때 -c 옵션으로 더많은 양을 할당하거나(default 2개) --memory 옵션으로 메모리를 더 할당받도록 하면 해결될거 같습니다.

submition 시에 따로 할당옵션을 변경할 수 있나요? submit 단계에서 에러가 발생하고 현재 계속 제출도중 다른 시점에서 같은 문제가 발생하여 제출이 안되고 있는 상황입니다.

nsml-admin commented 4 years ago

submit시에는 training세션의 옵션을 갖고오는데요, training 타임때 해당옵션을 조정해서 해보실래요??

kboseong commented 4 years ago

submit시에는 training세션의 옵션을 갖고오는데요, training 타임때 해당옵션을 조정해서 해보실래요??

감사합니다!