Open YunseokHan opened 1 month ago
안녕하세요. 저는 11번 팀인데 어제부터 정확히 같은 현상이 일어납니다. 확인해주시면 감사하겠습니다.
안녕하세요, 2024 SNU FastMRI Challenge 조교 이준성입니다.
Vessl 측과 확인해보았는데 현재 Host Machine 상에서는 정상적으로 작동한다고 합니다. Workspace Stop/Start를 하신 후에도 동일한 현상이 일어나는지 알려주시면 감사하겠습니다.
이준성 드림
Docker container에서 가끔 gpu access를 잃는 경우가 발생한다고 합니다: https://github.com/NVIDIA/nvidia-docker/issues/1730
Workspace를 stop 후 다시 start하였더니 문제가 해결되었습니다. stop 시 자동으로 backup이 이루어지고, 이 과정이 꽤 시간이 소요되는 것 같습니다. 저희 node에서는 6.3GB 정도 데이터를 백업 및 재다운로드하는 데에 총 30분 정도가 소요되었습니다. 같은 문제를 겪고 계신 분들은 참고하시면 좋을 것 같습니다.
정보 공유 감사드립니다 : )
다른 분들도 확인하실 수 있도록 Announcement Label 달아두겠습니다.
안녕하세요, train.py 코드가 끝나고 reconstruct.py를 돌리려고 하는데 device가 cpu로 설정되는 것을 확인하고, torch.cuda.is_avaliable()이 False로 반환됨을 확인하였습니다. 터미널에 nvidia-smi를 입력하니 Failed to initialize NVML: Unknown Error 오류가 발생합니다. 어떻게 해결해야 할지 조언 부탁드립니다.