ai-starthon / AI_Starthon2019

60 stars 44 forks source link

custom docker image #234

Closed tae-ha closed 5 years ago

tae-ha commented 5 years ago

torchvision == 0.3.0이 필요해서 setup.py에서 설치하면 torch == 1.1.0을 설치해야해서 allocating이 상당히 오래걸립니다. 그래서 nsml/ml:cuda9.0-cudnn7-tf-1.11torch1.0keras2.2 기반으로 torch(1.1.0)와 torchvision(0.3.0)을 설치한 커스텀 도커 이미지를 만들었는데 nsml/ml:cuda9.0-cudnn7-tf-1.11torch1.0keras2.2에 torch 1.1.0을 매번 설치하는것보다 커스텀 도커 이미지를 사용하는게 더 빠를까요?

이전 관련 질문들 보면 한번 다운받은 도커이미지는 해당 노드에 유지되는거 같은데 매번 같은 노드를 쓰는건 아닌거 같아서 어떤게 나은지 궁금합니다.

@bluebrush @nsml-admin

nsml-admin commented 5 years ago

커스텀 도커 이미지를 사용하는편이 나을것같습니다.

tae-ha commented 5 years ago

@nsml-admin 답변 감사합니다 :) 그러면 한번 커스텀 도커이미지를 다운로드하면 그 노드에는 남아 있는게 맞나요?
run 했을 때 커스텀 도커 이미지가 있는 노드에 할당되면 도커 이미지 다운로드 없이 바로 실행되는건가요?

nsml-admin commented 5 years ago

네 맞습니다

한번 노드에 이미지가 받아진 상태이면 대회가 끝날때까지 (서버상의 문제가 있지않는이상) 따로 삭제되진 않습니다.

tae-ha commented 5 years ago

@nsml-admin 감사합니다. issue랑은 상관없는 질문인데 total gpu를 늘려주실 계획은 없나요? 자원 사용률이 높아서 그런지 팀에게 할당 된 자원은 남아있는데 nsml run / submit 하면 Error: No machine available that meets ALL your request such as CPU, RAM, Disk, GPU or its driver version 에러가 자주 발생합니다