bityigoss / mtl-text-recognition

multi-task learning for text recognition with joint CTC-attention
115 stars 36 forks source link

识别精度验证 #16

Closed trizh closed 3 years ago

trizh commented 4 years ago

很高兴社区有人开源多语言版本识别器。 我想了解你们识别精度,和字符正确率。 我自己在RCTW和一个手写数据集试图训练一个中文识别器,但精度很差

bityigoss commented 4 years ago

抱歉,我没有在RCTW上做过,只是基于生成的数据训练的

trizh commented 3 years ago

你介意分享一下你用TextRecognitionDataGenerator生成文本数据的时用的中文预料库吗?还说生成的中文字符是随机的,没有语义的?

bityigoss commented 3 years ago

我已经将我使用的语料上传,你可以到百度网盘地址下载 。code:pwic 语料均来源于开源数据集,其中300万来源于其他repo中常用的语料(每条长度好像是10),其余数据从搜狗news,wiki数据中提取,每条字数大概是8-25,train/val数据实际是随机split出来的。 对语料进行了简单的字频采样,样本条数不足的文字(主要是一些生僻字),也有进行随机拼凑,或者重复上采样(语料文本相同,但是生成的图片不同)形成的(也就是你说的没有语义)。