Open wmailn opened 2 weeks ago
我试过以下 方案,均不行: 安装最新的“551.78_grid_win10_win11_server2022_dch_64bit_international.exe”驱动; 降低CUDA版本; 禁用Docker的WSL2依赖; 禁用虚拟机的显卡(svga.present = FALSE); 禁止系统自动更新(有人说是系统自动更新导致); 更换授权网站(https://yangwenqing.com/archives/1913/,这个教程里的); ......
各种尝试,均是每隔3小时左右出问题,而且是所有虚拟机都出问题(几乎同时),不知道还有啥可以尝试的地方吗?
刚刚发现执行nvidia-smi提示 No devices were found
但是vSphere中还有显示
大佬请教下,我按照教程一切正常。 我是在Docker中调用显卡,每运行3小时左右Docker会提示:stderr: Auto-detected mode as 'legacy' nvidia-container-cli: detection error: nvml error: unknown error: unknown,重启虚拟机后可以恢复(不重启esxi)。
在esxi中看显卡正常。在虚拟机中看显卡,发现nvidia-smi不正常,nvidia-smi提示Unable to determine the device handle for GPU0000:03:00.0: Unknown Error,但是设备管理器中正常。
在虚拟机中看显卡,发现nvidia-smi不正常,但是设备管理器中正常
在esxi中看显卡正常