ai-starthon / AI_Starthon2019

60 stars 44 forks source link

Submit 시 Dataloader killed error #147

Closed SeungsuKim closed 5 years ago

SeungsuKim commented 5 years ago

Informations

CLI

WEB

What is your NSML login ID? SeungsuKim

Question Test option을 붙여 submit 할때는 뜨지 않던 RuntimeError: DataLoader worker (pid 91) is killed by signal: Bus error. 오류가 submit시에는 발생합니다.

세션은 team_39/5_vcls_emotion/133 입니다.

nsml-admin commented 5 years ago

안녕하세요.

submit --test 는 테스트 데이터셋의 일부 또는 트레인 데이터셋의 일부만 이용해서 디버깅으로 사용하지만 전체 에러케이스를 잡는것에는 한계가 있습니다. 위와같은 상황이 그런상황으로 보여지는데요, 적은 데이터셋으로 실행하면 잘 수행 되지만, 실제 submit 할때는 훨씬 많은 데이터셋이 들어와서 에러가 발생한것같습니다.(약 10배 이상이라고 생각하시면 됩니다)

만약 시간이 그리 오래걸리지 않았다면 현재 inference의 timeout은 1시간이니, 시스템 자원의 리소스(memory, GPU memory등..)는 적게쓰지만 시간은 좀더 걸리는 방향등으로 코드를 최적화 하는방법을 추천드립니다.

제가 도와드릴 부분은 정확히 어떤부분에서 에러가 발생했는지에대한 에러스택을 요청하시면 보여드릴순 있을것 같습니다.

감사합니다.

nsml-admin commented 5 years ago

https://github.com/ai-starthon/AI_Starthon2019/issues/184