naver-airush / NAVER-AI-RUSH

41 stars 20 forks source link

Submit 시 세션이 응답하지 않습니다 #91

Closed OMMANT closed 4 years ago

OMMANT commented 4 years ago

Informations

CLI

WEB

What is your login ID? OMMANT

What is name of session in problem? (bug message or screenshot) image

How often does it occur?

Steps to reproduce the problem -t 옵션을 이용하여 테스트 진행후 문제 없음을 확인한 뒤 submit을 진행하였는데 오랜 시간이 지난 후 Error: Session does not respond가 뜨며 submit진행이 되지 않습니다.

What is the expected behavior?

Suggested solutions

bluebrush commented 4 years ago

@OMMANT 님, 비정상세션들 모두 정리하였습니다.

OMMANT commented 4 years ago

@bluebrush 반복하여 submit을 시도하였는데 계속해서 "Error: Session does not respond" 메세지가 뜹니다.

nsml-admin commented 4 years ago

결과가 3600초 안에 나오지 않았을경우 Error: Session does not respond 가 발생합니다.

로그를보니 실행후 1시간후에 해당에러가 발생했는데요

1시간안에 결과가 나오도록 코드를 최적화 하신후 다시 submit 해주시면 될거같습니다.

justHungryMan commented 4 years ago

@nsml-admin 같은 모델을 제출하는데도 어떤 것은 세션이 멈추고 다시 실행하면 제출이 되는 것도 있습니다. 이런 경우는 어떤 것인가요?

bluebrush commented 4 years ago

@justHungryMan 님, 영향을 받은 요소는 아래같이 추정됩니다.

  1. docker image build 시간 ( GPU node가 여럿이라 한번 실행한 곳을 우선 배정하긴 하나, 새로운 노느에서 새로 image build를 한다면, 시간이 길게 소요될 수 있어 멈춘것 처럼 보임) 이후 재실행시, 멈춘 node에 image build가 끝나고 cache된 상태에서 빠르게 실행될 가능성.
  2. nsml submit과정에서 network connection이 끊어져서 submit이 실패한 사례
  3. submit 과정에서 해당 node가 여러 가지 요인에의해서 느려져서 끝나지 않는 사례(GPU 장애, 물리적 오류 등)