LISTatSNU / FastMRI_challenge

2021 SNU FastMRI challenge
57 stars 50 forks source link

Failed to initialize NVML: Unknown Error 오류 #263

Open YunseokHan opened 1 month ago

YunseokHan commented 1 month ago

안녕하세요, train.py 코드가 끝나고 reconstruct.py를 돌리려고 하는데 device가 cpu로 설정되는 것을 확인하고, torch.cuda.is_avaliable()이 False로 반환됨을 확인하였습니다. 터미널에 nvidia-smi를 입력하니 Failed to initialize NVML: Unknown Error 오류가 발생합니다. 어떻게 해결해야 할지 조언 부탁드립니다. image

GunwooJeon commented 1 month ago

안녕하세요. 저는 11번 팀인데 어제부터 정확히 같은 현상이 일어납니다. 확인해주시면 감사하겠습니다.

JS-Lee525 commented 1 month ago

안녕하세요, 2024 SNU FastMRI Challenge 조교 이준성입니다.

Vessl 측과 확인해보았는데 현재 Host Machine 상에서는 정상적으로 작동한다고 합니다. Workspace Stop/Start를 하신 후에도 동일한 현상이 일어나는지 알려주시면 감사하겠습니다.

이준성 드림

YunseokHan commented 1 month ago

Docker container에서 가끔 gpu access를 잃는 경우가 발생한다고 합니다: https://github.com/NVIDIA/nvidia-docker/issues/1730

Workspace를 stop 후 다시 start하였더니 문제가 해결되었습니다. stop 시 자동으로 backup이 이루어지고, 이 과정이 꽤 시간이 소요되는 것 같습니다. 저희 node에서는 6.3GB 정도 데이터를 백업 및 재다운로드하는 데에 총 30분 정도가 소요되었습니다. 같은 문제를 겪고 계신 분들은 참고하시면 좋을 것 같습니다.

yxxshin commented 1 month ago

정보 공유 감사드립니다 : )

다른 분들도 확인하실 수 있도록 Announcement Label 달아두겠습니다.