Closed YiqinXu closed 2 years ago
看上去还是权限问题,参见部署设置 https://github.com/IndustryEssentials/ymir#22-installation-of-ymir-gui “It is recommended not to use the sudo command, otherwise it may cause insufficient privileges.”
前面一个推理问题,是不是本身没有推理结果输出?
权限应该没问题,我部署和运行都没有用root用户,全程都是自己用户。
推理的话,我是web端实验的,就只是上传了图片,然后选择镜像,点击推理,然后卡了一会,日志里就输出了上面的报错信息。
看样子是没有输出结果,可以在截图地址找下镜像的log日志
日志是这样的
看样子还是cuda安装问题
我训练和推理都没有问题,用yolov4,就只有验证有这个错误,如果是cuda安装有问题的话,训练应该也会有问题才对呀,我网上看了这个问题的教程,这个文件我服务器上也是有的
我训练和推理都没有问题,用yolov4,就只有验证有这个错误,如果是cuda安装有问题的话,训练应该也会有问题才对呀,我网上看了这个问题的教程,这个文件我服务器上也是有的
参考: https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker 检查 nvidia-docker 是否安装好
docker run --rm --gpus all nvidia/cuda:11.0.3-base-ubuntu20.04 nvidia-smi
我用docker run --rm --gpus进入image的话就是好的,但是用nvidia-docker就有上面的问题,但是我看YMIR调用的还是nvidia-docker,是不是就代表着如果我要完全使用的话,版本啥的得完全和部署参考链接里的一致才行
docker 与 nvidia-docker 都能正确运行 如果你本地的cuda版本为11.+, 那么最好采用cuda11.+的镜像.
报错的时候,请附上你的系统信息,docker 版本, 本地cuda版本及采用的镜像,出错信息等。 测试系统应该不需要安装nvidia-modprobe
我的服务器是Ubuntu 16.04,cuda是10.2版本的。
出现cannotfind libcuda.so.1使用的镜像是 industryessentials/executor-det-yolov4-mining
出现nvidia-modprobe错误,使用的镜像是 youdaoyzbx/ymir-executor:ymir1.1.0-mmdet-cu102-tmi youdaoyzbx/ymir-executor:ymir1.1.0-yolov5-cu102-tmi
我的服务器是Ubuntu 16.04,cuda是10.2版本的。
出现cannotfind libcuda.so.1使用的镜像是 industryessentials/executor-det-yolov4-mining
出现nvidia-modprobe错误,使用的镜像是 youdaoyzbx/ymir-executor:ymir1.1.0-mmdet-cu102-tmi youdaoyzbx/ymir-executor:ymir1.1.0-yolov5-cu102-tmi
配置应该没问题,系统的cuda版本比较低,测试用低版本的镜像。 你显卡的版本是多少?如果是3080/3090 系列,需要安装cuda11以上版本。 还可以看下这个 https://github.com/NVIDIA/nvidia-docker/issues/319
nvidia-docker run --rm --gpus all nvidia/cuda:10.2-base-ubuntu18.04 nvidia-smi
nvidia run --rm --gpus all nvidia/cuda:10.2-base-ubuntu18.04 nvidia-smi
我的显卡是2080,所以10.2应该是没问题的。 industryessentials/executor-det-yolov4-mining这个镜像不是针对10.2版本的吗 我在docker hub上暂时没有找到适配10.2,ymir1.1.0的yolov4测试镜像
上面两个命令的输出发一下
我的显卡是2080,所以10.2应该是没问题的。 industryessentials/executor-det-yolov4-mining这个镜像不是针对10.2版本的吗 我在docker hub上暂时没有找到适配10.2,ymir1.1.0的yolov4测试镜像
主机 cuda10.2 可以运行10.1的镜像,看上去你使用的nvidia-docker没有问题,但不知为何这些镜像会报错。 放到dockerhub上的cuda101或cuda102镜像在安装cuda10.2的机器上测试过,都能正常运行。
你可以自己配一个简单的训练镜像看看cuda能不能在镜像中正常工作,目前的信息我无法判断出问题。
好的,industryessentials/executor-det-yolov4-mining这个镜像,我如果用docker run --gpus all的方式进入,是可以找到libcuda.so.1这个文件的,但是如果使用nvidia-docker run 的方式就不行。
我先自己测试一下吧,有问题再来请教,谢谢
您好,
我目前碰到了两个问题,
我的项目目前使用yolov4可以正常训练,模型训练好后,使用推理功能时,报错找不到result.yaml文件以及infer-result.json。
在使用除yolov4以外的其他公共镜像比如yolov5,mmdet训练时,报错Error: Could not load UVM kernel module. Is nvidia-modprobe installed。但是我的nvidia-modporbe已经正确安装了