Open songyang86 opened 4 years ago
大牛,我想问一个问题,我觉的论文《Learning Efficient Convolutional Networks Through Network Slimming》中给出的损失函数是针对需要剪枝的BN层的,而网络的最后层的损失函数还是经典的yolov3的损失函数,可以这样理解吗?根据代码的意思,最后的loss依然是经典的yolov3的损失函数值,没有加入L1正则的损失值
期待您的回复。十分感谢
实际操作是直接对原loss反传得到的梯度添加与gamma同向的额外梯度,相当于增加了一个优化项,这个是L1
但是 我看代码 只对 conv2d.weights 进行了 weight decay,BN层的参数 没有进行weight decay,那你增加额外梯度并没有对BN的参数稀疏化产生帮助呀?
大牛,我想问一个问题,我觉的论文《Learning Efficient Convolutional Networks Through Network Slimming》中给出的损失函数是针对需要剪枝的BN层的,而网络的最后层的损失函数还是经典的yolov3的损失函数,可以这样理解吗?根据代码的意思,最后的loss依然是经典的yolov3的损失函数值,没有加入L1正则的损失值
期待您的回复。十分感谢