Open Song345381185 opened 1 year ago
您好,我在复现您的yolo模型的时候,遇见了一个问题,就是关于GPU选择的问题,在冻结主干网络的时候,我按照DP模式设置CUDA_VISIBLE_DEVICES=1可以正常训练(因为是共用服务器,所以我只能用1号GPU),在50个ep之后模型报错,显示现存溢出,而报错的是因为gpu0正在被人使用,我命令行终端明明使用的是GPU1,而且还训练了50个ep,为啥会报错GPU0,非常不解,然后尝试了很多种方法,一直都是报错GPU0显存溢出,所以想求教一下,为什么会出现这种问题
可见的gpu0就是你的GPU1
您好,我在复现您的yolo模型的时候,遇见了一个问题,就是关于GPU选择的问题,在冻结主干网络的时候,我按照DP模式设置CUDA_VISIBLE_DEVICES=1可以正常训练(因为是共用服务器,所以我只能用1号GPU),在50个ep之后模型报错,显示现存溢出,而报错的是因为gpu0正在被人使用,我命令行终端明明使用的是GPU1,而且还训练了50个ep,为啥会报错GPU0,非常不解,然后尝试了很多种方法,一直都是报错GPU0显存溢出,所以想求教一下,为什么会出现这种问题