Closed thisisiron closed 4 years ago
GPU를 하나도 사용하지않았다는거는 세션내에서 사용하지않았다는건가요 run했을때 사용하지 않았다는건가요??
사용하신 커맨드와 생성된 세션네임을 알려주시기바랍니다.
사용한 Command:
nsml submit thisisiron/spam-2/94 27
지금 사용하고 있는 GPU가 없다는 것을 말씀드리고 싶었던 거였습니다. (submit할 떄 학습을 실행중인 세션이 없었습니다.)
nsml submit을 할때는 기존 세션의 gpu갯수와 똑같은 갯수를 할당받아서 submit세션을 실행시킨후 작업을 진행하게 되는데요,
이경우에는 thisisiron/spam-2/94
세션에서 사용하고 있는 gpu의 갯수와 똑같은 수를 할당받아서 실행시켰습니다. 해당 세션은 gpu 2개를 사용하고 있고 생성된 submit세션에서도 마찬가지로 2개를 사용했습니다.
위의 에러내용은 submit 당시 몇개의 세션을 실행중인지는 관련없는 문제이고, 세션안에서 gpu out of memory 에러가 발생한것 같습니다.
확인해주셔서 정말 감사합니다.
추가로 질문을 하자면 똑같이 GPU를 생성해서 사용했다면 어떤게 문제인건가요?
제가 코드를 짠게 아니라서 잘모르겠지만,
대부분 모델사이즈가 커서 발생하였거나 많은 data를 gpu메모리에 올리다가 발생했었던거 같습니다.
oom 에러는 코드를 어떻게 구성하냐에 따라 다른것이라 확실하게 어떤부분이 문제인지는 직접 디버깅을 해보셔야 할것 같습니다.
감사합니다.
마지막으로 질문을 드리자면 학습을 할 때 GPU 문제없이 돌아갔는데 Submit할 때 GPU 문제가 발생할 수 있나요??
Informations
CLI
WEB
What is your login ID? thisisiron
Question GPU를 하나도 사용하지 않고 있는데 GPU가 이미 할당이 되어 있는 거 같아서 문의 드립니다. submit할 때 발생하는 문제입니다.