senlinuc / caffe_ocr

主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构
1.26k stars 535 forks source link

关于训练集字符平衡问题 #44

Open moondaiy opened 6 years ago

moondaiy commented 6 years ago

LZ大神好,请问下,是否统计过汉子字符出现的频率?是否平衡???

bestzld commented 6 years ago

应该不是很均衡,我从小说随机摘取问本行,有的文本行识别很好,有的文本行就识别的比较差,用脚本统计一下,然后不足的补充上(最好根据场景,词频来规划,针对你目标场景的语料集合也很重要)