tkestack / vcuda-controller

Other
488 stars 156 forks source link

torch:1.12.0+cu113 驱动:530.41.03,gpu manager调度成功之后,使用cuda报错 #34

Open Justin-ZL opened 1 year ago

Justin-ZL commented 1 year ago

一个问题是使用nvidia-smi显示的数据有问题 image 另一个问题是,在使用cuda的时候报错:RuntimeError: CUDA error: invalid device context

seanchen022 commented 1 year ago

应该是需要适配cuda 12

panpan0000 commented 1 year ago

is this project still under maintenance ?

hiahia121 commented 9 months ago

针对问题1,也可以尝试降低节点上nv卡的驱动版本及含带的cuda版本,例如 image

然后进入业务pod中,执行nvidia-smi命令,查看 image

function not found就会消失,但总显存不是pod分配的显存,还需要解决这个问题