senlinuc / caffe_ocr

主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构
1.26k stars 535 forks source link

中文只能识别10个字符长度的汉字吗? #5

Closed wushilian closed 6 years ago

wushilian commented 6 years ago

你好,为什么中文训练集都是10个字符长度,他能识别任意长度的中文吗,另外中文应该比英文更难,为什么反而中文的准确率更高了?

senlinuc commented 6 years ago

预测是可以支持任意长度的,只要高度归一化为32,预测代码正在整理,整理好了就会放上来。 英文数据集上的准确率偏低主要是其字体样式、大小、旋转、扭曲等变化更复杂,更接近自然场景的情况,识别难度更大;中文数据集主要是针对手机拍照的场景,生成时这些变化相对少一些,也更好识别。

jxlijunhao commented 6 years ago

@senlinuc 能共享一下生成的中文数据吗(新闻+文言文)? 下载数据太慢了,我们能否把这个数据生成过程集成在batch生成过程中,这样可以减少生成lmdb文件过程中

senlinuc commented 6 years ago

中文语料库已上传到http://pan.baidu.com/s/1c2fHpvE 数据生成集成到训练过程中确实会节省很多时间,我也正有此想法,不过这样每次实验的可对比性就差一点。

shaoshuaiche commented 5 years ago

长度超过50,怎么处理

WenmuZhou commented 5 years ago

@senlinuc 语料库的连接失效了