fenghan0430 / How-to-use-vGPU

[中文教程]在ESXI安装NVIDIA vGPU软件,并搭建授服务器。
31 stars 14 forks source link

运行3小时左右Docker会报错:stderr: Auto-detected mode as 'legacy' nvidia-container-cli: detection error: nvml error: unknown error: unknown #7

Open wmailn opened 2 weeks ago

wmailn commented 2 weeks ago

大佬请教下,我按照教程一切正常。 我是在Docker中调用显卡,每运行3小时左右Docker会提示:stderr: Auto-detected mode as 'legacy' nvidia-container-cli: detection error: nvml error: unknown error: unknown,重启虚拟机后可以恢复(不重启esxi)。

在esxi中看显卡正常。在虚拟机中看显卡,发现nvidia-smi不正常,nvidia-smi提示Unable to determine the device handle for GPU0000:03:00.0: Unknown Error,但是设备管理器中正常。

在虚拟机中看显卡,发现nvidia-smi不正常,但是设备管理器中正常 d459f40cb08040ff0351cf8faa12982

在esxi中看显卡正常 图片 图片

wmailn commented 2 weeks ago

我试过以下 方案,均不行: 安装最新的“551.78_grid_win10_win11_server2022_dch_64bit_international.exe”驱动; 降低CUDA版本; 禁用Docker的WSL2依赖; 禁用虚拟机的显卡(svga.present = FALSE); 禁止系统自动更新(有人说是系统自动更新导致); 更换授权网站(https://yangwenqing.com/archives/1913/,这个教程里的); ......

各种尝试,均是每隔3小时左右出问题,而且是所有虚拟机都出问题(几乎同时),不知道还有啥可以尝试的地方吗?

wmailn commented 2 weeks ago

图片

图片

刚刚发现执行nvidia-smi提示 No devices were found

但是vSphere中还有显示