LISTatSNU / FastMRI_challenge

2021 SNU FastMRI challenge
57 stars 50 forks source link

vessl.ai workspace pending 현상에 대하여 #255

Open shp2001 opened 1 month ago

shp2001 commented 1 month ago

안녕하세요. FastMRI BIO 팀입니다.

현재 저희 vessl.ai workspace의 상태가 이틀간 pending 상태입니다. vessl support측에도 문의를 해봤지만 아직 답장이 없어 질문글 남깁니다.

그리고 pending 현상으로 gpu를 사용하지 못하고 있는데 추후 gpu 재할당에서 불이익이 있을지 궁금합니다.

감사합니다.

yxxshin commented 1 month ago

안녕하세요,

Vessl 측에 문의해 두었습니다. 답변 오는 대로 알려드리겠습니다. 다음 번 GPU 재할당 대상에서 본 팀(IABENG 34)은 제외하도록 하겠습니다.

감사합니다.

yxxshin commented 1 month ago

@shp2001

IABENG34 해결되었습니다. 감사합니다.

Cauch-BS commented 1 month ago

안녕하세요. FastMRI팀 ODE2Brains입니다. IABENG80입니다. 저희도 이틀간 pending하고 있는, 같은 문제를 경험하고 있습니다. 혹시 해결해 주실 수 있으실까요?

Cauch-BS commented 1 month ago

며칠 동안 Pending하다가 방금 해결되었습니다. 혹시 조교분들이 해결하셨나요? 감사합니다.

yxxshin commented 1 month ago

@Cauch-BS 안녕하세요, 조금 전에 모든 서버가 정상화 되었습니다 ( #258 )

감사합니다.

K2YOUNG commented 1 month ago

안녕하세요. FastMRI 수송부팀입니다. 저희가 할당받은 노드는 IABENG08인데, 서버 정상화 이후에도 정상적인 pending이 되지 않고 있습니다.

superfastmri commented 1 month ago

workspace 생성 시 image에서 NGC pytorch-1.14.0 CUDA-12.0(vessl tutorial pdf에 나온 선택지)을 선택하면 pending 단계를 무사히 넘어갑니다!

K2YOUNG commented 1 month ago

Tutorial에서 나온대로 NGC pytorch-1.14.0 CUDA-12.0를 선택했늗네 pending 단계를 못 넘어가고 있습니다.. workspace를 stop하고 다시 실행하여도 아래와 같이 log가 뜨면서 pending이 되지 않는 상태입니다.

스크린샷 2024-07-27 오후 3 35 04
yxxshin commented 1 month ago

@K2YOUNG 안녕하세요,

본 문제는 Vessl 측에서 조치를 해주어야 할 확률이 높습니다. 어제 밤에 문의해 두었는데 주말이라 조금 걸릴 수도 있을 것 같네요 🥲

감사합니다.

K2YOUNG commented 1 month ago

넵 그럼 기다리고 있겠습니다. 주말에도 답장주셔서 감사합니다! 😊

yxxshin commented 1 month ago

@K2YOUNG 안녕하세요,

IABENG08 해결 완료되었습니다.

감사합니다.

ncmoon38 commented 1 month ago

안녕하세요, iabeng50 팀도 워크스페이스가 계속 pending되는 현상이 발생하고 있습니다. 어떻게 해결해야할까요..? @yxxshin

yxxshin commented 1 month ago

@ncmoon38 안녕하세요,

확인 부탁드립니다!

ncmoon38 commented 1 month ago

아직 pending 현상이 지속되고 있습니다. @yxxshin

yxxshin commented 1 month ago

@ncmoon38 안녕하세요,

Screenshot 2024-08-03 at 6 55 24 PM

현재 위와 같이 세 개의 workspace가 IABENG 50 에서 잡히는데요, 가장 위에 있는 well-informed-study (Creator: ncmoon38) 는 Running 으로 잘 작동하고 있는 것으로 보입니다.

한 서버당 하나의 workspace만 생성이 가능합니다. 따라서 Running 중인 workspace가 하나 있다면 나머지 workspace 는 모두 Pending 중이라고 뜨게 됩니다.

Subin-Jjo commented 3 weeks ago

안녕하세요, iabeng39팀에서도 stop - run 한 다음에 아래와 같은 log가 뜨면서 pending이 지속되는 현상이 발생하였습니다. 1시간 반 정도 지속되고 있는데, 아무래도 내일이 제출일이다보니 빠르게 해결이 가능한지 궁금합니다.

저희가 생성한 workspace는 1개입니다.

image
yxxshin commented 3 weeks ago

@Subin-Jjo 안녕하세요,

Vessl 측에 바로 문의하였습니다. 답변 오는 대로 알려드리겠습니다.

yxxshin commented 3 weeks ago

@Subin-Jjo 안녕하세요,

해결되었습니다!