关于训练集字符平衡问题

senlinuc / caffe_ocr

主流ocr算法研究实验性的项目，目前实现了CNN+BLSTM+CTC架构

1.26k stars 535 forks source link

Open moondaiy opened 6 years ago

moondaiy commented 6 years ago

LZ大神好,请问下,是否统计过汉子字符出现的频率?是否平衡???

bestzld commented 6 years ago

应该不是很均衡，我从小说随机摘取问本行，有的文本行识别很好，有的文本行就识别的比较差，用脚本统计一下，然后不足的补充上（最好根据场景，词频来规划，针对你目标场景的语料集合也很重要）