Open JongSangJeon opened 5 years ago
위 이미지 처럼 현재 실행중인 세션이 없고 이로인해서 submit이 안되고 있는 상황입니다 빠른 조치 부탁드립니다
화면에 보이는 사용률은 세션의 gpu사용률이 아니라 전체 gpu대비 사용중인 gpu 개수입니다.
전체 클러스터 사용량이 90% 이고 세션의 gpu사용량과는 관계가없습니다.
submit이 안되는 상황의 화면을 보여주실수있나요?
위 사진이 주요 에러입니다.
에러 내용을 보면 제한된 GPU메모리를 넘어선 메모리를 할당하다가 발생한 에러인것같습니다.
코드상에서 GPU메모리 사용하는부분을 최적화하여서 다시 실행해보시기 바랍니다(해당부분은 유저영역이라서 저희가 도와드리기에는 한계가있어보입니다)
감사합니다.
넵 알겠습니다
14번 문항 실행예제대로 GPU Size를 24G로 했을때 실행되지 않아 16G로 설정하고 실행했었는데 어느순간 점점 줄더니 10G이하로 설정해야 실행이 된다고 하네요
위 GPU 사용량 이미지에 대해서 말씀하신 것 처럼 전체 사용량이 늘어남에 따라 할당 할 수 있는 GPU메모리가 줄어들 수 있나요?
GPU메모리는 할당량을 설정받을수가 없고 항상 최댓값을 할당받습니다. CPU메모리만 설정할수있습니다.
nsml run --memory 16G
라고 설정하는건 CPU메모리를 설정하는것입니다.
CPU메모리는 전체 사용량이 늘어나면, 추가로 할당받을수있는 사용량이 적어집니다.
Informations
CLI
WEB
현재 아무런 실행이 없는데도 GPU가 90%가 넘네요 확인부탁 드리겠습니다