pokerfaceSad / GPUMounter

A kubernetes plugin which enables dynamically add or remove GPU resources for a running Pod
Apache License 2.0
120 stars 26 forks source link

请教个问题,运行woker的时候,找不到libnvidia-ml.so.1 #21

Closed jason-gideon closed 1 year ago

jason-gideon commented 1 year ago

1668513287009

宿主机是有libnvidia-ml.so.1,而且非容器化运行的时候是可以加载的,但是用官方镜像如图所示,显示加载不到,这是什么原因?

jason-gideon commented 1 year ago

1668566295992

你好,我这边把宿主机的 /usr/lib/x86_64-linux-gnu 挂载到mounter-worker里的/usr/lib/x86_64-linux-gnu,运行正常了,这块咱们官方镜像是不是有问题?还是我这边哪里操作的不对,缺什么东西?

pokerfaceSad commented 1 year ago

@jason-gideon 挂载NVML的工作应该是由nvidia-container-runtime完成的,看起来是镜像中的NVIDIA_VISIBLE_DEVICES环境变量没有按照预期触发nvidia-container-runtime,check一下docker和nvidia-container-runtime的版本

jason-gideon commented 1 year ago

@jason-gideon 挂载NVML的工作应该是由nvidia-container-runtime完成的,看起来是镜像中的NVIDIA_VISIBLE_DEVICES环境变量没有按照预期触发nvidia-container-runtime,check一下docker和nvidia-container-runtime的版本

感谢大佬,我这边知道什么原因了,docker的默认runtime没有设置成nvidia