中文只能识别10个字符长度的汉字吗？

senlinuc / caffe_ocr

主流ocr算法研究实验性的项目，目前实现了CNN+BLSTM+CTC架构

1.26k stars 535 forks source link

Closed wushilian closed 6 years ago

wushilian commented 6 years ago

你好，为什么中文训练集都是10个字符长度，他能识别任意长度的中文吗，另外中文应该比英文更难，为什么反而中文的准确率更高了？

senlinuc commented 6 years ago

预测是可以支持任意长度的，只要高度归一化为32，预测代码正在整理，整理好了就会放上来。英文数据集上的准确率偏低主要是其字体样式、大小、旋转、扭曲等变化更复杂，更接近自然场景的情况，识别难度更大；中文数据集主要是针对手机拍照的场景，生成时这些变化相对少一些，也更好识别。

jxlijunhao commented 6 years ago

@senlinuc 能共享一下生成的中文数据吗（新闻+文言文）？下载数据太慢了，我们能否把这个数据生成过程集成在batch生成过程中，这样可以减少生成lmdb文件过程中

senlinuc commented 6 years ago

中文语料库已上传到http://pan.baidu.com/s/1c2fHpvE 数据生成集成到训练过程中确实会节省很多时间，我也正有此想法，不过这样每次实验的可对比性就差一点。

shaoshuaiche commented 5 years ago

长度超过50，怎么处理

WenmuZhou commented 5 years ago

@senlinuc 语料库的连接失效了