xiaofengShi / CHINESE-OCR

[python3.6] 运用tf实现自然场景文字检测,keras/pytorch实现ctpn+crnn+ctc实现不定长场景文字OCR识别
2.91k stars 961 forks source link

中文OCR的数据集怎么生成 #28

Open chyun opened 6 years ago

chyun commented 6 years ago

中文OCR的数据集怎么生成的? 定位没啥问题,就是中文ocr识别率比较低

wfdubowen commented 6 years ago

建议你参考这个:https://github.com/YoungMiao/synthdata-zh

Hubert2102 commented 6 years ago

synthdata-zh这个是单字的生成啊,如果想要训练CRNN,数据集是不是应该是不定长字符词组的啊?那图像对应的label应该是“嗄自噢三诺亚坯”这种对应的汉字,还是把相应汉字映射到一个字典里的index? @CNU105

wfdubowen commented 6 years ago

@NK-Hubert 或者直接参考这个(白底黑字)https://github.com/xiaofengShi/CHINESE-OCR/tree/master/train/create_dataset。这个可以自己调生成几个字。用的label是对应的汉字

Sierkinhane commented 6 years ago

@NK-Hubert,https://github.com/Sierkinhane/crnn_chinese_characters_rec 这里有360万的中文数据集(Csdn 博客中有链接)

wangx404 commented 5 years ago

赞,先下载看看,明天试着跑一下看啥效果。

WestbrookZero commented 4 years ago

@CNU105 使用create_dataset.py,报错如下:Process finished with exit code -1073741819 (0xC0000005),请问该如何解决?