YCG09 / chinese_ocr

CTPN + DenseNet + CTC based end-to-end Chinese OCR implemented using tensorflow and keras
Apache License 2.0
2.74k stars 1.08k forks source link

denseNet训练数据分布情况介绍 #314

Open SeventhBlue opened 4 years ago

SeventhBlue commented 4 years ago

有好几个字符过百万了 1 这没有经过排序,看起来很平滑呀 2 其中前面1000个字符占据总训练数据的90% 3 下面是前1500个字符 4

SeventhBlue commented 4 years ago

字符虽然有5990个,但是有166个字符在训练数据中从没又出现过,所以只能识别5824字符。开始用没语义的数据训练densenet,平常的识别没有问题,稍微复杂点的,识别就不是很好。后来分析了一下数据,看到这数据的分布(ΩДΩ)大家觉得是拥有语义的训练数据强化了识别效果,还是这种字符数量分布更满足我们现实使用字符的频率从而使识别更好?

v-smwang commented 4 years ago

+1