naver-airush / NAVER-AI-RUSH

41 stars 20 forks source link

GPU 메모리 문제 #87

Closed thisisiron closed 4 years ago

thisisiron commented 4 years ago

Informations

CLI

WEB

What is your login ID? thisisiron

Question GPU를 하나도 사용하지 않고 있는데 GPU가 이미 할당이 되어 있는 거 같아서 문의 드립니다. submit할 때 발생하는 문제입니다.

RuntimeError: CUDA out of memory. Tried to allocate 38.00 MiB (GPU 0; 31.75 GiB total capacity; 30.38 GiB already allocated; 7.31 MiB free; 30.67 GiB reserved in total by PyTorch)
nsml-admin commented 4 years ago

GPU를 하나도 사용하지않았다는거는 세션내에서 사용하지않았다는건가요 run했을때 사용하지 않았다는건가요??

사용하신 커맨드와 생성된 세션네임을 알려주시기바랍니다.

thisisiron commented 4 years ago

사용한 Command:

nsml submit thisisiron/spam-2/94 27

지금 사용하고 있는 GPU가 없다는 것을 말씀드리고 싶었던 거였습니다. (submit할 떄 학습을 실행중인 세션이 없었습니다.)

nsml-admin commented 4 years ago

nsml submit을 할때는 기존 세션의 gpu갯수와 똑같은 갯수를 할당받아서 submit세션을 실행시킨후 작업을 진행하게 되는데요,

이경우에는 thisisiron/spam-2/94 세션에서 사용하고 있는 gpu의 갯수와 똑같은 수를 할당받아서 실행시켰습니다. 해당 세션은 gpu 2개를 사용하고 있고 생성된 submit세션에서도 마찬가지로 2개를 사용했습니다.

위의 에러내용은 submit 당시 몇개의 세션을 실행중인지는 관련없는 문제이고, 세션안에서 gpu out of memory 에러가 발생한것 같습니다.

thisisiron commented 4 years ago

확인해주셔서 정말 감사합니다.

추가로 질문을 하자면 똑같이 GPU를 생성해서 사용했다면 어떤게 문제인건가요?

nsml-admin commented 4 years ago

제가 코드를 짠게 아니라서 잘모르겠지만,

대부분 모델사이즈가 커서 발생하였거나 많은 data를 gpu메모리에 올리다가 발생했었던거 같습니다.

oom 에러는 코드를 어떻게 구성하냐에 따라 다른것이라 확실하게 어떤부분이 문제인지는 직접 디버깅을 해보셔야 할것 같습니다.

감사합니다.

thisisiron commented 4 years ago

마지막으로 질문을 드리자면 학습을 할 때 GPU 문제없이 돌아갔는데 Submit할 때 GPU 문제가 발생할 수 있나요??