Open TianGao-NJUST opened 1 year ago
老师您好,我想请问您,我把VIT更改至了1bit的模式,在cifar-100上的性能还可以,在量化网络中基本sota了,但是在imagnet上训练,就会陷入局部极小值,top1-accuracy卡在百分之22左右,训练的loss基本就不动了。我调试了学习率。但依旧没有作用。您能根据您的经验给予我一些方向上的帮助吗。会是梯度消失还是一些什么其他的问题呢。谢谢您
1bit的vit确实存在欠拟合的问题,但swin的1bit效果还可以接受。可以尝试mixed precision 或者改进attention和softmax的部分,个人理解。
老师您好,我想请问您,我把VIT更改至了1bit的模式,在cifar-100上的性能还可以,在量化网络中基本sota了,但是在imagnet上训练,就会陷入局部极小值,top1-accuracy卡在百分之22左右,训练的loss基本就不动了。我调试了学习率。但依旧没有作用。您能根据您的经验给予我一些方向上的帮助吗。会是梯度消失还是一些什么其他的问题呢。谢谢您