Closed szqxx closed 5 years ago
您是否跑了startup program?
@sneaxiy有的,完全仿照 rcnn/train.py
gpu_id = int(os.environ.get('FLAGS_selected_gpus', 0))
place = fluid.CUDAPlace(gpu_id) if cfg.use_gpu else fluid.CPUPlace()
exe = fluid.Executor(place)
exe.run(fluid.default_startup_program())
尝试加环境变量GLOG_vmodule=operator=4
来打log,然后把log贴出来?
好的 谢谢 会尽快尝试回复
@sneaxiy 用GLOG_vmodule=operator=4
除了多一些shape信息之外,并没有有用的其他输出。
报错的原因好像是paddle reshape的一处内部错误。
def channel_shuffle(x):
print("before channel_shuffle, shape is",x.shape)
batchsize, num_channels, height, width = x.shape[0], x.shape[1], x.shape[2], x.shape[3]
channels_per_group = num_channels // 2
# reshape
x = fluid.layers.reshape(x=x, shape=[batchsize, 2, channels_per_group, height, width])
x = fluid.layers.transpose(x=x, perm=[0,2,1,3,4])
# flatten
x = fluid.layers.reshape(x=x, shape=[batchsize, num_channels, height, width])
return x
这是paddle的通道混合操作,报错就是从这里开始的,我之前的确在issue版块搜到几个类似报错的情况,被卡住很久。
如果可以的话,恳请大佬私信check下代码,万分感谢!
@sneaxiy 屏蔽这个channel_shuffle操作就可以训练了,虽然破坏了模型,但是可以跑起来了,感谢~
1)PaddlePaddle版本:1.5.2.post10.7 3)GPU:NVIDIA-SMI 418.39 Driver Version: 418.39 CUDA Version: 10.1 CUDNN 7.0 4)系统环境:Centos OS 7,Python 3.7.2
训练信息 1)单卡 V100 2)显存信息 16G
复现信息:复现Thundernet,网络每层shape打印没问题,参考faster-RCNN修改的,训练报错
报错日志:请详细描述您的问题,同步贴出报错信息、日志、可复现的代码片段