Naver-AI-Hackathon / AI-Vision

67 stars 34 forks source link

Zombie 프로세스로 잡힌 후 할당이 되지 않습니다. #267

Open Ssojux2 opened 5 years ago

Ssojux2 commented 5 years ago

Informations

CLI

WEB

NSML login ID 가 무엇인가요? Ssojux2

문제가 발생한 세션은 어떤건가요? (bug message or screenshot) ...Rejected: exceeded the maximum capacity of the cluster Since cluster does not have enough computing resources, job has been aborted. Please retry later Error: No machine available that meets ALL your request such as CPU, RAM, Disk, GPU or its driver version

현재 돌고있는 세션이 없는데 할당할수 없다고 뜨네요. 학습이 시작된 뒤에 계속 좀비 프로세스로 바뀌어버리는데 이것과 관련이있는 문제인가요?

재현방법은 어떻게 되나요?

예상했던 동작방식은 무엇인가요?

제안하고 싶은 해결방법이 있나요?

nsml-admin commented 5 years ago

위의 에러는 세션을 실행할당시에 gpu가 모두 점유중이라 사용가능한 gpu가 없어서 발생한걸로 보입니다.

자원이 여유로울때 다시 실행시켜주시면 될것같습니다.

감사합니다.

Ssojux2 commented 5 years ago

@nsml-admin 답변감사합니다. 추가 질문이 있는데, 세션이 돌아가다가 계속 좀비세션이 되는데 이유를 알 수 있을까요? 학습 도중 멈춰버립니다.

nsml-admin commented 5 years ago

gpu의 사용량이 적을때는 좀비가 됩니다. 참고

nsml-admin commented 5 years ago

@Ssojux2 추가로 설명드립니다. 좀비 세션은 run상태와 동일하게 간주됩니다. 단순히 사용자에게 알려주기 위한 상태(좀비)이며, 강제로 죽이거나 하지 않습니다. 상태가 좀비여도 해당 세션의 정상적인 실행에는 영향을 주지 않습니다.