ai-starthon / AI_Starthon2019

60 stars 44 forks source link

NSML Session Allocation 시간이 너무 오래 걸립니다. #62

Open codertimo opened 5 years ago

codertimo commented 5 years ago

Informations

CLI

WEB

What is your NSML login ID?

codertimo

What is name of session in problem? (bug message or screenshot)

nsml run 을 했을때 session allocation이 이루어 지는데요, 이때 걸리는 시간이 너무 오래 걸립니다.

nsml docker image는 #nsml: nsml/pytorch:0.3.0-cuda8cudnn6-konlpy0.4-py3.6 를 사용하였습니다.

docker image의 caching 문제일 수 도 있을 것 같아서, default docker image도 사용해 보았는데 별 차이가 없었습니다.

Steps to reproduce the problem

nsml run -a "--task=movie" -d 16_tcls_movie -i

What is the expected behavior?

Building docker image. It might take for a while
...

Suggested solutions

codertimo commented 5 years ago

저 뿐만 아니라 핑퐁팀 전원에서 발생하고 있습니다.

nsml-admin commented 5 years ago

안녕하세요.

환경 셋팅 때문에 최초의 도커 이미지를 받아오고 빌드하는 과정이 생길수밖에 없는데요 그과정 에서 많은 시간이 소요되는것 같습니다.

default 도커 이미지도 아직 셋팅이 안된곳이 많이 있어서 느린것일수도있습니다.

한번 셋팅된 도커 이미지는 따로 지우지 않고 클러스터상에 남아있어 계속 재활용가능하기 때문에

사람들이 많이 사용하고, 일관된 도커이미지를 사용하게 된다면 초반에는 좀느리겠지만 점차 빨라질것으로 예상됩니다.

그과정에서 시간이 오래걸리는것은 어쩔수없는 사항이라서 번거롭겠지만 양해부탁드립니다.

(추가적으로 말씀드리자면 install_requires에 추가적인 라이브러리를 설치하는것보다 도커이미지를 만들어서 실행하는 편이 훨씬더 캐시효과가 큽니다.)

감사합니다.