zhaipro / easy12306

使用机器学习算法完成对12306验证码的自动识别
Artistic License 2.0
2.89k stars 737 forks source link

如何让统计学专家发挥更多的实力呢? #6

Open zhaipro opened 5 years ago

zhaipro commented 5 years ago

a

图片文件的命名规则:<类别>.<出现的次数>.(<在当前类别中出现的频率>).<索引>.jpg

索引只是用来防止文件重名的。

我大概估计得用于判断准确性的参数是:

  1. 出现次数必须大于15次,毕竟出现次数少,统计出来的值可信度也不够。
  2. 频率必须超过0.182,因为有某图片出现的次数足够多,但频率不够高,我猜测其原因可能是哈希算法出错了。
zhaipro commented 5 years ago

其实,我想知道更有统计数理论的参数。但是,我的能力…

看来我需要把埋在床底的书找出来了。

zhaipro commented 5 years ago

让统计学数据集做训练集,让此数据集做验证集

Epoch 100/100
8264/8264 [=] - ... - loss: 0.2421 - acc: 0.9211 - val_loss: 0.3360 - val_acc: 0.9462
[0.2166585269566813, 0.9507376632185858]

等等,只有在验证集上的正确率超过96.7%才算有进展,对吧

我开始觉得自己搞错了,卷积神经网络的用途在于面对前所未见的样本,这是无论如何统计学都做不到的。

zhaipro commented 5 years ago

a3

~$ python3 main.py a.jpg
26
0 0 32
0 1 8
0 2 57
0 3 4
1 0 45
1 1 26
1 2 75
1 3 38

[19 78 73 10 26 38 26  8]

机器学习后的模型可以识别前所未见的图片,其中的蒸笼和创可贴都识别正确了。也许统计学可以在见过的图片中有98%的识别率,而学习后的框架则具有在无限空间中有94%的识别率。哦对了,那个文字的书写方式也是卷积神经网络在学习时没有见过的。

zhaipro commented 5 years ago

那我就坐等新图出现吧

zhaipro commented 5 years ago

这里的数据集用于测试,得出的结果: 统计学专家的正确率:0.9422140966882884 从统计学专家哪里学来的深度学习模型的正确率:0.9811081335640064

可以以此证明学习后的神经网络具备识别前所未见的实力吗?