paddle的ssd训练中加入senet或者dsfd这种结构的时候，无故出现nan的情况。

在ssd检测结构中，添加senet或者dsfd这样的结构，在paddle里面无故出现nan。但是在caffe和pytorch都是正常的，想问下什么原因？

senet代码： def inceptionA_senet(data): pool1 = fluid.layers.pool2d( input=data, pool_size=3, pool_padding=1, pool_type='avg') conv1 = conv_bn_layer(pool1, 32, 1, act='relu')

conv2 = conv_bn_layer(data, 32, 1, act='relu')

conv3 = conv_bn_layer(data, 24, 1, act='relu')
conv3 = conv_bn_layer(conv3, 32, 3, padding=1, act='relu')

conv4 = conv_bn_layer(data, 24, 1, act='relu')
conv4 = conv_bn_layer(conv4, 32, 3, padding=1, act='relu')
conv4 = conv_bn_layer(conv4, 32, 3, padding=1, act='relu')

concat = fluid.layers.concat([conv1, conv2, conv3, conv4], axis=1)

# scale = squeeze_excitation(input=concat, num_channels=128, reduction_ratio=16)

pool_se = fluid.layers.pool2d(
    input=concat, pool_size=0, global_pooling=True, pool_type='avg')  

b_attr = ParamAttr(learning_rate=2., regularizer=L2Decay(0.))
conv1_se = fluid.layers.conv2d(pool_se, 8, 1, 1, 0, act='relu', bias_attr=b_attr)
conv2_se = fluid.layers.conv2d(conv1_se, 128, 1, 1, 0, act='sigmoid', bias_attr=b_attr)
scale_se = fluid.layers.elementwise_mul(x=concat, y=conv2_se, axis=0)

return scale_se

请求各位解决，急急急。。。

PaddlePaddle / Paddle

paddle的ssd训练中加入senet或者dsfd这种结构的时候，无故出现nan的情况。 #16976