naver-airush / NAVER-AI-RUSH

41 stars 20 forks source link

session 유지 시간 #22

Closed limaries30 closed 4 years ago

limaries30 commented 4 years ago

Informations

CLI

WEB

What is your login ID? limaries30

Question

어제 학습 도중, 아래와 같은 메세지가 출력되면서 학습이 강제로 종료되었는데, 한 개의 session당 유지할 수 있는 최대시간이 있는 것인가요?

image

bluebrush commented 4 years ago

@limaries30 님, submit을 제외하고는 유지시간에 제한이 없습니다. nsml inspect [SessionID]를 통해서 추가 정보의 분석이 가능합니다. (OOM 여부) 일단, session들을 살펴보니, output of memory로 죽은 세션이 있는 상황입니다. 아래 확인2번이 137일 경우, OOM으로 강제 종료되 상황입니다.

  1. (메모리 옵션 추가) https://n-clair.github.io/ai-docs/_build/html/en_US/contents/session/run_a_session.html?highlight=memory 참고하시어, --memory 옵션으로 메모리 추가 부여 가능
  2. (세션 구동중 메모리 사용량 확인) https://airush.nsml.navercorp.com/overview/limaries30/spam-1/7 에서 CPU memory 증가량 확인 가능
    
    ubuntu16@ubuntu16-VirtualBox:~/airushdemo/src/NAVER-AI-RUSH/spam$ nsml inspect limaries30/spam-1/6
    ----------  -----------------------------
    Status      exited
    Running     False
    Paused      False
    Restarting  False
    OOMKilled   False   ==> 확인1
    Dead        False
    Pid         0
    ExitCode    137       ==> 확인2
    Error
    StartedAt   2020-07-14T15:47:24.36922387Z
    FinishedAt  2020-07-14T18:55:42.34737706Z
    ----------  -----------------------------
hjlee9182 commented 4 years ago

@bluebrush image

nsml inspect 명령어를 사용하고 싶은데 위의 화면처럼 출력이 됩니다. 어떻게 해야 확인할수가 있을까요?

bluebrush commented 4 years ago

@limaries30 님, 7/15일 2:10분 경에 새로 배포된 CLI에 해당 명령어가 포함되었습니다. nsml login 다시 하시면 될것 같습니다.

limaries30 commented 4 years ago

확인했습니다!

감사합니다.