courao / ocr.pytorch

A pure pytorch implemented ocr project including text detection and recognition
MIT License
582 stars 133 forks source link

关于CRNN识别问题 #26

Open 897486562 opened 4 years ago

897486562 commented 4 years ago

作者您好,请问这个项目中的CRNN可否用来识别特殊符号呢 例如 ℃ 这类字符

courao commented 4 years ago

从原理上讲是可以的, 不过你需要找一些这样的数据重新训练一下,因为我在训练的时候没有加入这些样的字符所以目前的模型应该不支持, 你可以搜集一些包含这样字符的数据,再搭配一些比较大的数据集如synthText那个数据集训练应该就可以,另外需要用keys.py更新一下识别用到的alphabet,因为里面本身可能也不包含这样的特殊字符。

897486562 commented 4 years ago

QQ图片20200330215839 谢谢回答 我在训练自己的数据时候发现label文件超过300条的话会出现错误,请问您在训练时候碰到过类似的问题吗?

courao commented 4 years ago

没有遇到这个问题诶,提示too large to show contents...是不是你以某种方式show了出来?

897486562 commented 4 years ago

我并没有更改代码,只是使用自己的数据来训练crnn,但是当运行train.py的时候会提示not enough values to unpack,当我把label中txt的数值改到300以下时,就可以正常训练了,并没有找到修改的地方,很迷惑 QQ图片20200330222045

897486562 commented 4 years ago

QQ图片20200330222045

courao commented 4 years ago

not enough values to unpack这个问题报错是因为程序设定了两种分割符用于分隔label文件中的文件名和label分别是'\t'和':'

发生这个原因是因为某行数据中即没有'\t'也没有':', 至于300行这个限制不太清楚是否和这个有关系

897486562 commented 4 years ago

感谢您的回答