lumina37 / rotate-captcha-crack

CNN预测图片旋转角✨可用于破解旋转验证码
The Unlicense
297 stars 85 forks source link

请教您的数据集都是如何构成的 #23

Closed MgArcher closed 6 months ago

MgArcher commented 1 year ago

根据您的说明:
跨域测试使用谷歌街景/Landscape-Dataset作为训练集,百度验证码作为测试集(感谢@xiangbei1997)。
我使用了一小部分谷歌街景和[Landscape-Dataset]作为训练集,训练结果收敛,在Landscape上表现也很好,但是在百度验证码上表现得不是很理想,请问这个问题该如何处理?

n0099 commented 1 year ago

https://github.com/Starry-OvO/rotate-captcha-crack/issues/11

lumina37 commented 1 year ago

其实19°的平均误差算非常高了,我希望能压到5°左右,不过最近真抽不出时间

MgArcher commented 12 months ago

@n0099 你的意思是过拟合?我猜测是出现了过拟合,所以想问问作者训练的时候选择了多少张数据集,我复现项目的时候选择1W张风景图片,无法复现再百度验证码上的效果

lumina37 commented 12 months ago

谷歌街景好像有3万张以上。不过我的step设置应该没有用到那么多

MgArcher commented 12 months ago

是的 您的步长选择128,batch_size选择为64 8000+以上的图片就可以训练了。我运行你的train_RotNetR.py,训练集选择为[Landscape-Dataset]中的图片与google训练集part10,无法复现您的结果。并发现train_RotNetR.py似乎并没有使用您自定义loss,而是使用的CrossEntropyLoss()