LISTatSNU / FastMRI_challenge

2021 SNU FastMRI challenge
57 stars 50 forks source link

torch.cuda.OutOfMemoryError: CUDA out of memory #252

Open superfastmri opened 1 month ago

superfastmri commented 1 month ago

238 와 비슷한 이슈로 문의드립니다.

하나의 train.sh 파일을 다 돌린 후 terminal 창을 shut down 했음에도 gpu memory가 비워지지 않는 문제가 있었습니다. 해당 workspace를 terminate 한 후 새로운 workspace를 만든 후 다시 train.sh 파일을 돌리니 아래와 같이 에러가 나왔습니다.

238 을 참고하여 terminal 창에 올려주신 명령어를 쳐봤지만 pid가 출력되지 않아 뚜렷한 해결방법을 찾지 못하였습니다.

제 노드 번호는 IABENG 58 입니다. 혹시 관리자 권한으로 진행중인 프로세스를 멈춰주실 수 있으신가요?

감사합니다.

스크린샷 2024-07-16 오전 12 22 27
yxxshin commented 1 month ago

안녕하세요,

보여주신 화면과 같이 제가 관리자 권한으로 확인하였을 때에도 현재는 실행중인 프로세스가 없습니다. 따라서 명령어를 입력하셔도 PID 가 출력되지 않는 것입니다.

혹시 돌리시는 프로세스가 GPU VRAM 8GB 를 넘어가는 것은 아닌가요? 이러한 경우라면 위와 같이 CUDA Out of memory 에러가 발생합니다.

만약 실행 시키신 프로세스가 다 끝나서 종료하였는데도 gpu memory가 남아 있는 것이 문제라면, 다음과 같은 코드들을 Python 에서 돌려보는 것을 추천드려 봅니다. 캐시 정리 및 메모리 해제를 실행해주는 코드입니다.

import gc
import torch
gc.collect()
torch.cuda.empty_cache()
superfastmri commented 1 month ago

지적해주신 내용 참고하여 확인해보니, 돌리려는 프로세스가 GPU VRAM 8GB를 넘어가는 것이었습니다. 감사합니다!