Open baozhiming opened 3 years ago
someone?
someone?
我这边遇到的问题是配置完之后,docker inspect gpushare 报segmentation fault。你这边的kubectl 版本是多少?
我这边遇到的问题是配置完之后,docker inspect gpushare 报segmentation fault。你这边的kubectl 版本是多少?
我的版本是1.17.3, 你报的这个错误是分配的内存大于剩余内存哦
我这边遇到的问题是配置完之后,docker inspect gpushare 报segmentation fault。你这边的kubectl 版本是多少?
我的版本是1.17.3, 你报的这个错误是分配的内存大于剩余内存哦
我这边问题解决了,kubectl-inspect-gpushare 这个可执行文件,没有下载完。直接运行就报错了。
又遇到个新问题,在 device-plugin-ds.yaml 改了memory-unit 为 MiB,删除了pod 重新 create。还是只能用 gb 为单位创建。即便是用 gb,通过nvidia-smi 查看,还是会超过 1G。请问遇到过这个问题么?
我这边看看能不能复现一下
又遇到个新问题,在 device-plugin-ds.yaml 改了memory-unit 为 MiB,删除了pod 重新 create。还是只能用 gb 为单位创建。即便是用 gb,通过nvidia-smi 查看,还是会超过 1G。请问遇到过这个问题么?
解决了吗
使用gpu共享扩展时,在一个pod里面部署两个容器,第一种情况是两个容器都要gpu,第一个容器要1G,第二个容器要2G,看设备插件扩展的日志是发现pod要3G内存,但是其中的容器只要1G内存,无效的allocation, 不匹配,创建失败。第二种情况是一个要gpu,一个不要gpu,可以看见是可以成功部署的。那我理解是不是此方案就没有实现单pod多gpu容器的情况,只是简单的做了allocation是否相等的判断。 当我们需要单pod多gpu容器的情况下,是否只需要改一下allocation等于的条件为小于等于即可呢?还是有其他的方法