iamhankai / ghostnet.pytorch

[CVPR2020] GhostNet: More Features from Cheap Operations
https://arxiv.org/abs/1911.11907
523 stars 118 forks source link

pytorch训练的超参数是? #3

Closed betterhalfwzm closed 4 years ago

betterhalfwzm commented 4 years ago

非常棒的网络!! 请问Ghostnet有不加se结构在imagenet训练的结果吗?se对精度影响大吗?pytorch训练的超参数是?

iamhankai commented 4 years ago

谢谢肯定。加se是follow MobileNetV3的结构,不加的话top1会有约0.5个点的损失。

pytorch训练的超参可参考https://github.com/megvii-model/ShuffleNet-Series

pawopawo commented 4 years ago

我参考 https://github.com/megvii-model/ShuffleNet-Series 的训练策略,训练出的ghostnet 1.0,精度只有73.04,没有复现出论文的73.9。请问有什么特别需要注意的地方么

pawopawo commented 4 years ago

30000iter , batch size 1024, lr 0.5, 学习率linear decay,weight decay 4e-5,momentum 0.9, label smooth 0.1。 没有学习率的warm up

iamhankai commented 4 years ago

Try 450000iter, lr0.4, dropout0.15 or dropout0.1

pawopawo commented 4 years ago

Try 450000iter, lr0.4, dropout0.15 or dropout0.1

hi,我尝试改了下训练策略: 把iter改为450000iter, lr0.4,dropout0.15,结果是73.2 把iter改为450000iter, lr0.4,dropout0.2, 结果是73.4 把iter改为450000iter, lr0.4,dropout0.1, 结果是72.7

最好的结果还是跟论文差了0.5。请问还有别的细节吗?weight decay是4e-5吗?

盼望能够得到你的帮助~

iamhankai commented 4 years ago

我们论文的实验是在TF上进行的,pytorch的话有些细节可能需要调整。

我们用了5epochs的warmup和cosine学习率,另外我建议试试weight decay 3e-5,1e-5

pawopawo commented 4 years ago

请问不带SE的训练策略和带SE的策略有什么不同吗?能提供一个预训练模型么?

pawopawo commented 4 years ago

不带SE的ghostnet 1.0,我按照和带SE一样的训练策略,精度是72.7%,会低1.2%

pawopawo commented 4 years ago

求帮助~

laisimiao commented 4 years ago

求帮助~

请问一下ghostnet后面的数字,如1.0, 0.5, 1.3×是什么意思?谢谢

iamhankai commented 4 years ago

请问不带SE的训练策略和带SE的策略有什么不同吗?能提供一个预训练模型么?

不带SE的模型我们没做过多探索。

iamhankai commented 4 years ago

求帮助~

请问一下ghostnet后面的数字,如1.0, 0.5, 1.3×是什么意思?谢谢

神经网络的宽度,论文里面的 $\alpha$