关于论文中稀疏训练的损失函数

tanluren / yolov3-channel-and-layer-pruning

yolov3 yolov4 channel and layer pruning, Knowledge Distillation 层剪枝，通道剪枝，知识蒸馏

Apache License 2.0

1.5k stars 446 forks source link

关于论文中稀疏训练的损失函数 #90

Open songyang86 opened 4 years ago

songyang86 commented 4 years ago

大牛，我想问一个问题，我觉的论文《Learning Efficient Convolutional Networks Through Network Slimming》中给出的损失函数是针对需要剪枝的BN层的，而网络的最后层的损失函数还是经典的yolov3的损失函数，可以这样理解吗？根据代码的意思，最后的loss依然是经典的yolov3的损失函数值，没有加入L1正则的损失值

期待您的回复。十分感谢

tanluren commented 4 years ago

实际操作是直接对原loss反传得到的梯度添加与gamma同向的额外梯度，相当于增加了一个优化项，这个是L1

yyjabiding commented 4 years ago

但是我看代码只对 conv2d.weights 进行了 weight decay，BN层的参数没有进行weight decay，那你增加额外梯度并没有对BN的参数稀疏化产生帮助呀？