pytorch训练的超参数是？

iamhankai / ghostnet.pytorch

[CVPR2020] GhostNet: More Features from Cheap Operations

https://arxiv.org/abs/1911.11907

523 stars 118 forks source link

Closed betterhalfwzm closed 4 years ago

betterhalfwzm commented 4 years ago

非常棒的网络!! 请问Ghostnet有不加se结构在imagenet训练的结果吗？se对精度影响大吗？pytorch训练的超参数是？

iamhankai commented 4 years ago

谢谢肯定。加se是follow MobileNetV3的结构，不加的话top1会有约0.5个点的损失。

pawopawo commented 4 years ago

我参考 https://github.com/megvii-model/ShuffleNet-Series 的训练策略，训练出的ghostnet 1.0，精度只有73.04，没有复现出论文的73.9。请问有什么特别需要注意的地方么

pawopawo commented 4 years ago

30000iter ， batch size 1024， lr 0.5，学习率linear decay，weight decay 4e-5，momentum 0.9， label smooth 0.1。没有学习率的warm up

iamhankai commented 4 years ago

Try 450000iter, lr0.4, dropout0.15 or dropout0.1

pawopawo commented 4 years ago

Try 450000iter, lr0.4, dropout0.15 or dropout0.1

hi，我尝试改了下训练策略：把iter改为450000iter， lr0.4，dropout0.15，结果是73.2 把iter改为450000iter， lr0.4，dropout0.2，结果是73.4 把iter改为450000iter， lr0.4，dropout0.1，结果是72.7

最好的结果还是跟论文差了0.5。请问还有别的细节吗？weight decay是4e-5吗？

盼望能够得到你的帮助～

iamhankai commented 4 years ago

我们论文的实验是在TF上进行的，pytorch的话有些细节可能需要调整。

我们用了5epochs的warmup和cosine学习率，另外我建议试试weight decay 3e-5，1e-5

pawopawo commented 4 years ago

请问不带SE的训练策略和带SE的策略有什么不同吗？能提供一个预训练模型么？

pawopawo commented 4 years ago

不带SE的ghostnet 1.0，我按照和带SE一样的训练策略，精度是72.7%，会低1.2%

pawopawo commented 4 years ago

求帮助～

laisimiao commented 4 years ago

求帮助～

请问一下ghostnet后面的数字，如1.0, 0.5, 1.3×是什么意思？谢谢

iamhankai commented 4 years ago

请问不带SE的训练策略和带SE的策略有什么不同吗？能提供一个预训练模型么？

不带SE的模型我们没做过多探索。

iamhankai commented 4 years ago

求帮助～

请问一下ghostnet后面的数字，如1.0, 0.5, 1.3×是什么意思？谢谢

神经网络的宽度，论文里面的 $\alpha$