Open eagle705 opened 6 years ago
안녕하세요~
실제 submit 과 학습할때 실행되는 환경은 똑같습니다.
다만 데이터가 test data라서 train data와 바뀌는 부분이 있을수있고, infer 함수안에서 실제 inference과정은 학습할때와 로직이 변경되어서 생기는 에러일수도있습니다.
해결할방법은 코드에서 어느부분에서 OOM이 발생하는지 submit -t
로 디버깅 하는 방법이 있습니다.
감사합니다.
학습할때는 OOM 에러가 뜨지 않는데, nsml sumbit시에 OOM에러가 뜨고있습니다. 혹시 해결할 방법이 있는지 궁금합니다