Closed jhgoh closed 9 months ago
mewtwo 노드에서 GPU job이 제대로 돌지 않고 CPU mode로 실행중인 것을 발견. nvidia-smi가 동작하지 않음.
root@mewtwo:~# nvidia-smi Failed to initialize NVML: Driver/library version mismatch NVML library version: 535.154
흔히 일어나는 증상 중 하나로, kernel module이 중간에 업데이트 되면서 일어나는 경우가 있었음. 일반적으로는 리부팅을 해서 해결함. 이번에는 module만 unload/load해서 해결.
root@mewtwo:~# lsmod | grep nv nvidia_uvm 1527808 0 nvidia_drm 77824 0 nvidia_modeset 1306624 1 nvidia_drm nvidia 56676352 2 nvidia_uvm,nvidia_modeset drm_kms_helper 311296 5 drm_vram_helper,ast,nvidia_drm drm 622592 8 drm_kms_helper,drm_vram_helper,ast,nvidia,drm_ttm_helper,nvidia_drm,ttm
위에서 nvidia 모듈에 dependency를 가진 모듈들을 차례로 rmmod nvidia_uvm과 같이 내리고 마지막으로 rmmod nvidia로 내리고 나서 다시 nvidia-smi실행한 결과 잘 되는 것을 확인함. 해결.
rmmod nvidia_uvm
rmmod nvidia
mewtwo 노드에서 GPU job이 제대로 돌지 않고 CPU mode로 실행중인 것을 발견. nvidia-smi가 동작하지 않음.
흔히 일어나는 증상 중 하나로, kernel module이 중간에 업데이트 되면서 일어나는 경우가 있었음. 일반적으로는 리부팅을 해서 해결함. 이번에는 module만 unload/load해서 해결.
위에서 nvidia 모듈에 dependency를 가진 모듈들을 차례로
rmmod nvidia_uvm
과 같이 내리고 마지막으로rmmod nvidia
로 내리고 나서 다시 nvidia-smi실행한 결과 잘 되는 것을 확인함. 해결.