ai-starthon / AI_Starthon2019

60 stars 44 forks source link

아무런 실행이 없는데 GPU사용이 90%를 넘습니다. #217

Open JongSangJeon opened 5 years ago

JongSangJeon commented 5 years ago

Informations

CLI

WEB

현재 아무런 실행이 없는데도 GPU가 90%가 넘네요 확인부탁 드리겠습니다

image

kk5949 commented 5 years ago

스크린샷, 2019-07-30 18-25-42

위 이미지 처럼 현재 실행중인 세션이 없고 이로인해서 submit이 안되고 있는 상황입니다 빠른 조치 부탁드립니다

nsml-admin commented 5 years ago

화면에 보이는 사용률은 세션의 gpu사용률이 아니라 전체 gpu대비 사용중인 gpu 개수입니다.

전체 클러스터 사용량이 90% 이고 세션의 gpu사용량과는 관계가없습니다.

submit이 안되는 상황의 화면을 보여주실수있나요?

JongSangJeon commented 5 years ago

image 위 사진이 주요 에러입니다.

nsml-admin commented 5 years ago

에러 내용을 보면 제한된 GPU메모리를 넘어선 메모리를 할당하다가 발생한 에러인것같습니다.

코드상에서 GPU메모리 사용하는부분을 최적화하여서 다시 실행해보시기 바랍니다(해당부분은 유저영역이라서 저희가 도와드리기에는 한계가있어보입니다)

감사합니다.

JongSangJeon commented 5 years ago

넵 알겠습니다

kk5949 commented 5 years ago

14번 문항 실행예제대로 GPU Size를 24G로 했을때 실행되지 않아 16G로 설정하고 실행했었는데 어느순간 점점 줄더니 10G이하로 설정해야 실행이 된다고 하네요

위 GPU 사용량 이미지에 대해서 말씀하신 것 처럼 전체 사용량이 늘어남에 따라 할당 할 수 있는 GPU메모리가 줄어들 수 있나요?

nsml-admin commented 5 years ago

GPU메모리는 할당량을 설정받을수가 없고 항상 최댓값을 할당받습니다. CPU메모리만 설정할수있습니다.

nsml run --memory 16G라고 설정하는건 CPU메모리를 설정하는것입니다.

CPU메모리는 전체 사용량이 늘어나면, 추가로 할당받을수있는 사용량이 적어집니다.