AI-GrandChallenge / round-1

14 stars 11 forks source link

도커 Allocating시 무한 대기현상 #124

Open HumanAI-A opened 4 years ago

HumanAI-A commented 4 years ago

조금 전 부터 docker build에서 (Building docker image. it may take a while 메시지) 무한대로 넘어가지 않고 대기하는 현상이 발생합니다. NSML 상에서도 계속 allocating만 발생하고 아무리 기다려도 할당이 되지 않네요.. 확인 부탁드립니다.

bluebrush commented 4 years ago

@HumanAI-A 해당 상황은 docker image build 시간입니다. base image download받는 시간 + package 설치로 인하여 시간이 다소 소요될수 있습니다.

bluebrush commented 4 years ago

@HumanAI-A 님, GPU 하드웨어 오류로 해당 세션이 아래 세션에 문제가 있을 것으로 예상됩니다. submit of t0084/tr-4/158 (Since 2020-07-30T19:22:26+09:00) 다시 진행하셔야할 것 같습니다. 불편을 드려서 죄송합니다.

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67       Driver Version: 418.67       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P40           On   | 00000000:00:05.0 Off |                  Off |
| N/A   30C    P0   ERR! / 250W |    721MiB / 24451MiB |      0%      Default 
HumanAI-A commented 4 years ago

@bluebrush 안녕하세요, 아직도 해당 현상이 계속되고있습니다. 159번 세션같은경우 nsml stop등으로 종료하려고 하는데 종료가 안되고, 160번 세션은 계속 대기중이네요...

bluebrush commented 4 years ago

@HumanAI-A 님, 159만 영향을 받는 있는 세션입니다. 현재, H/W migraion 예정되어 있어 session은 곧 삭제될 것으로 보입니다. 160번 새로운 장비에 최초 build하면서 오래 걸려서 그런것 같습니다.

HumanAI-A commented 4 years ago

@bluebrush 안녕하세요... 계속 10분이상 allocating이 안되는 현상이 지속됩니다. 계속 컨테이너 지웠다가 실행했다 지웠다 실행했다하면 가끔 한번씩 되고요... 아까 custom docker신청하긴했는데 현재 사용하지 않고있는데 이것이 영향을 줄수 있나요?

bluebrush commented 4 years ago

@HumanAI-A 님, 불편을 드려서 죄송합니다. 현재 custom docker에 설정되어 있습니다. 몇번(최대 5회)이네 느린 수 있을것으로 예상됩니다.