能获取显卡的数量，但是显存为0

Capacity: aliyun.com/gpu-count: 8 aliyun.com/gpu-mem: 0 gpu tesla V100

日志如下 [root@localhost I1012 05:08:46.374978 I1012 05:08:46.375045 I1012 05:08:46.379478 I1012 05:08:46.379497 I1012 05:08:46.379930 I1012 05:08:46.389438 I1012 05:08:46.389549 I1012 05:08:46.389564 I1012 05:08:46.389577 I1012 05:08:46.453844 I1012 05:08:46.461774 I1012 05:08:46.461816 I1012 05:08:46.461827 I1012 05:08:46.559867 I1012 05:08:46.567541 I1012 05:08:46.567574 I1012 05:08:46.567583 I1012 05:08:46.658328 I1012 05:08:46.666367 I1012 05:08:46.666393 I1012 05:08:46.666399 I1012 05:08:46.676851 I1012 05:08:46.683786 I1012 05:08:46.683802 I1012 05:08:46.683809 I1012 05:08:46.948055 I1012 05:08:46.956435 I1012 05:08:46.956486 I1012 05:08:46.956504 I1012 05:08:46.972438 I1012 05:08:46.980775 I1012 05:08:46.980797 I1012 05:08:46.980805 I1012 05:08:46.990545 I1012 05:08:46.997877 I1012 05:08:46.997891 I1012 05:08:46.997895 I1012 05:08:47.249585 I1012 05:08:47.249606 I1012 05:08:47.249644 I1012 05:08:47.265532 I1012 05:08:47.266863 I1012 05:08:47.267431 有没有人遇见过 ~]# kubectl logs -f -n kube-system gpushare-device-plugin-ds-qjltc 1 main.go:18] Start gpushare device plugin 1 gpumanager.go:28] Loading NVML 1 gpumanager.go:37] Fetching devices. 1 gpumanager.go:43] Starting FS watcher. 1 gpumanager.go:51] Starting OS watcher. 1 nvidia.go:64] Deivce GPU-60805828-8ab0-6124-67c4-9baff56d087b's Path is /dev/nvidia0 1 nvidia.go:69] # device Memory: 32510 1 nvidia.go:40] set gpu memory: 32510 1 nvidia.go:76] # Add first device ID: GPU-60805828-8ab0-6124-67c4-9baff56d087b--0 1 nvidia.go:79] # Add last device ID: GPU-60805828-8ab0-6124-67c4-9baff56d087b--32509 1 nvidia.go:64] Deivce GPU-41e647db-0c4c-7817-219d-e1cd7bb8ed01's Path is /dev/nvidia1 1 nvidia.go:69] # device Memory: 32510 1 nvidia.go:76] # Add first device ID: GPU-41e647db-0c4c-7817-219d-e1cd7bb8ed01--0 1 nvidia.go:79] # Add last device ID: GPU-41e647db-0c4c-7817-219d-e1cd7bb8ed01--32509 1 nvidia.go:64] Deivce GPU-7e19808b-d7da-307c-5cbf-3d3699c82d7a's Path is /dev/nvidia2 1 nvidia.go:69] # device Memory: 32510 1 nvidia.go:76] # Add first device ID: GPU-7e19808b-d7da-307c-5cbf-3d3699c82d7a--0 1 nvidia.go:79] # Add last device ID: GPU-7e19808b-d7da-307c-5cbf-3d3699c82d7a--32509 1 nvidia.go:64] Deivce GPU-c854bc81-34e3-0ecd-7371-e095b70b03e5's Path is /dev/nvidia3 1 nvidia.go:69] # device Memory: 32510 1 nvidia.go:76] # Add first device ID: GPU-c854bc81-34e3-0ecd-7371-e095b70b03e5--0 1 nvidia.go:79] # Add last device ID: GPU-c854bc81-34e3-0ecd-7371-e095b70b03e5--32509 1 nvidia.go:64] Deivce GPU-7770845b-ed41-a3cd-7ca1-92cfeffa3991's Path is /dev/nvidia4 1 nvidia.go:69] # device Memory: 32510 1 nvidia.go:76] # Add first device ID: GPU-7770845b-ed41-a3cd-7ca1-92cfeffa3991--0 1 nvidia.go:79] # Add last device ID: GPU-7770845b-ed41-a3cd-7ca1-92cfeffa3991--32509 1 nvidia.go:64] Deivce GPU-e94907ae-1d00-7b23-c45d-840b7c9daeaf's Path is /dev/nvidia5 1 nvidia.go:69] # device Memory: 32510 1 nvidia.go:76] # Add first device ID: GPU-e94907ae-1d00-7b23-c45d-840b7c9daeaf--0 1 nvidia.go:79] # Add last device ID: GPU-e94907ae-1d00-7b23-c45d-840b7c9daeaf--32509 1 nvidia.go:64] Deivce GPU-fa56285a-16dc-ba8d-22bc-4da78fa1e415's Path is /dev/nvidia6 1 nvidia.go:69] # device Memory: 32510 1 nvidia.go:76] # Add first device ID: GPU-fa56285a-16dc-ba8d-22bc-4da78fa1e415--0 1 nvidia.go:79] # Add last device ID: GPU-fa56285a-16dc-ba8d-22bc-4da78fa1e415--32509 1 nvidia.go:64] Deivce GPU-4e75e7aa-bf09-9acd-0ba1-b415b61f03f2's Path is /dev/nvidia7 1 nvidia.go:69] # device Memory: 32510 1 nvidia.go:76] # Add first device ID: GPU-4e75e7aa-bf09-9acd-0ba1-b415b61f03f2--0 1 nvidia.go:79] # Add last device ID: GPU-4e75e7aa-bf09-9acd-0ba1-b415b61f03f2--32509 1 server.go:43] Device Map: map[GPU-fa56285a-16dc-ba8d-22bc-4da78fa1e415:6 GPU-4e75e7aa-bf09-9acd-0ba1-b415b61f03f2:7 GPU-60805828-8ab0-6124-67c4-9baff56d087b:0 GPU-41e647db-0c4c-7817-219d-e1cd7bb8ed01:1 GPU-7e19808b-d7da-307c-5cbf-3d3699c82d7a:2 GPU-c854bc81-34e3-0ecd-7371-e095b70b03e5:3 GPU-7770845b-ed41-a3cd-7ca1-92cfeffa3991:4 GPU-e94907ae-1d00-7b23-c45d-840b7c9daeaf:5] 1 server.go:44] Device List: [GPU-c854bc81-34e3-0ecd-7371-e095b70b03e5 GPU-7770845b-ed41-a3cd-7ca1-92cfeffa3991 GPU-e94907ae-1d00-7b23-c45d-840b7c9daeaf GPU-fa56285a-16dc-ba8d-22bc-4da78fa1e415 GPU-4e75e7aa-bf09-9acd-0ba1-b415b61f03f2 GPU-60805828-8ab0-6124-67c4-9baff56d087b GPU-41e647db-0c4c-7817-219d-e1cd7bb8ed01 GPU-7e19808b-d7da-307c-5cbf-3d3699c82d7a] 1 podmanager.go:68] No need to update Capacity aliyun.com/gpu-count 1 server.go:222] Starting to serve on /var/lib/kubelet/device-plugins/aliyungpushare.sock 1 server.go:230] Registered device plugin with Kubelet k8s 1.16.3 nvidia-runtime 1.1-dev

AliyunContainerService / gpushare-scheduler-extender

能获取显卡的数量，但是显存为0 #159