中文OCR的数据集怎么生成

xiaofengShi / CHINESE-OCR

[python3.6] 运用tf实现自然场景文字检测,keras/pytorch实现ctpn+crnn+ctc实现不定长场景文字OCR识别

2.91k stars 961 forks source link

Open chyun opened 6 years ago

chyun commented 6 years ago

中文OCR的数据集怎么生成的? 定位没啥问题,就是中文ocr识别率比较低

wfdubowen commented 6 years ago

Hubert2102 commented 6 years ago

synthdata-zh这个是单字的生成啊，如果想要训练CRNN，数据集是不是应该是不定长字符词组的啊？那图像对应的label应该是“嗄自噢三诺亚坯”这种对应的汉字，还是把相应汉字映射到一个字典里的index？ @CNU105

wfdubowen commented 6 years ago

Sierkinhane commented 6 years ago

@NK-Hubert，https://github.com/Sierkinhane/crnn_chinese_characters_rec 这里有360万的中文数据集（Csdn 博客中有链接）

wangx404 commented 5 years ago

赞，先下载看看，明天试着跑一下看啥效果。

WestbrookZero commented 4 years ago

@CNU105 使用create_dataset.py，报错如下：Process finished with exit code -1073741819 (0xC0000005)，请问该如何解决？