Closed hi-space closed 4 years ago
@hi-space 님, allocating 로그 반복에 대한 설명을 먼저 드리면, docker build 과정, package install과정에서 나오는 메시지 입니다. 해당 메시지는 GPU node별로 서로 다른 실행시간을 가질수 있습니다. 기존에 동일한 docker image build한 이력이 있다면, cache 역할을 하게되어 빠르게 실행됩니다. 반면 처음 실행되는 node라면, 상대적으로 긴 시간이 소요됩니다.
@bluebrush 아 gpu 노드별로 다른거였군요. 네 이해했습니다, 감사합니다!
@hi-space 님, 추가로 전체 실행 속도 분석을 위해서 의견을 드립니다 각 세션별로 아래와 같이 실행시간별 리소스 활용그래프를 제공하고 있습니다 예를 들어, https://airush.nsml.navercorp.com/overview/hi-space/spam-1/106 세션에서는 CPU 할당이 2개(default 값)이며, 일정시간동안 MAX 값(200%)를 치고 있습니다 이 경우, -c 4 또는 -c 6같이 늘려주시면, 해당 구간에는 더 빨리 진행될 것으로 예상됩니다. 전반적으로 GPU utilization을 보면, 낮은 값을 보이고 있으며, 이는 data feeding의 속도가 느려서 발생하는 것으로 보여집니다.
Informations
CLI
WEB
What is your login ID?
hi-space
Question
nsml run
할 때 session 이 allocating 되고 running 하는 속도가 느립니다.allocating 로그가 반복적으로 출력됩니다.
아래와 같이 tensorflow 로딩 후 오랫동안 진행되지 않습니다.
여러명의 사용자가 동시에 사용하면 session 생성,작업이 오래 걸리나요? 아니면 다른 문제가 있을까요?