cpnr / computing

0 stars 0 forks source link

mewtwo driver version mismatch #10

Closed jhgoh closed 9 months ago

jhgoh commented 9 months ago

mewtwo 노드에서 GPU job이 제대로 돌지 않고 CPU mode로 실행중인 것을 발견. nvidia-smi가 동작하지 않음.

root@mewtwo:~# nvidia-smi
Failed to initialize NVML: Driver/library version mismatch
NVML library version: 535.154

흔히 일어나는 증상 중 하나로, kernel module이 중간에 업데이트 되면서 일어나는 경우가 있었음. 일반적으로는 리부팅을 해서 해결함. 이번에는 module만 unload/load해서 해결.

root@mewtwo:~# lsmod | grep nv
nvidia_uvm           1527808  0
nvidia_drm             77824  0
nvidia_modeset       1306624  1 nvidia_drm
nvidia              56676352  2 nvidia_uvm,nvidia_modeset
drm_kms_helper        311296  5 drm_vram_helper,ast,nvidia_drm
drm                   622592  8 drm_kms_helper,drm_vram_helper,ast,nvidia,drm_ttm_helper,nvidia_drm,ttm

위에서 nvidia 모듈에 dependency를 가진 모듈들을 차례로 rmmod nvidia_uvm과 같이 내리고 마지막으로 rmmod nvidia로 내리고 나서 다시 nvidia-smi실행한 결과 잘 되는 것을 확인함. 해결.