tongpi / basicOCR

BasicOCR是一个致力于解决自然场景文字识别算法研究的项目。该项目由长城数字大数据应用技术研究院佟派AI团队发起和维护。
https://tongpi.github.io/basicOCR/
GNU General Public License v3.0
342 stars 127 forks source link

请问您训练中文包含多少个字 ,crnn模型 #19

Closed ghost closed 7 years ago

ghost commented 7 years ago

打扰您,请问您的crnn模型涵盖的中文有多少个字,是常用字吗

YoungMiao commented 7 years ago

GitHub上的模型只是用21个中英文做的demo,我们已经实现了4000多常用汉字模型

wanghaisheng commented 7 years ago

@wulivicte 啥时候放细节

doudoubean commented 7 years ago

现在没有时间,等有空了,再分享!

xiaomaxiao commented 7 years ago

@wulivicte 汉字样本是随机组合 还是语料?

YoungMiao commented 7 years ago

@xiaomaxiao 语料

xiaomaxiao commented 7 years ago

@wulivicte 一次多少个字?多少样本啊?

YoungMiao commented 7 years ago

@xiaomaxiao 目前是4000多常用字儿,因为词儿比较多,所以样本也在千万级

xiaomaxiao commented 7 years ago

@wulivicte
如果是随机组合汉字的话,是不是没法收敛?

YoungMiao commented 7 years ago

@xiaomaxiao 目前我们没有使用随机组合的汉字训练,但是猜测是可以收敛的,随机组合汉字在语料训练的模型上预测结果比较可观

xiaomaxiao commented 7 years ago

@wulivicte 请问 ,语料是从哪找的,可否分享下

YoungMiao commented 7 years ago

@xiaomaxiao 是下载网上得语料库,你可以在我的网盘下载链接:http://pan.baidu.com/s/1jHYJeh4 密码:fdtk

xiaomaxiao commented 7 years ago

@wulivicte 这个语料库 没有标点符号, 也没英文字符。

YoungMiao commented 7 years ago

@xiaomaxiao 你好,我们目前训练的语料只针对常用汉字的训练

xiaomaxiao commented 7 years ago

@wulivicte 语料库中有些字出现的频率很小,而有些则很大,请问平衡问题您是怎么解决的?

ethan-funny commented 6 years ago

@YoungMiao ,我从百度盘上将语料库下载下来,发现还需要解压密码,请问解压密码是啥?非常感谢!

liangshuang1993 commented 6 years ago

@YoungMiao 你好,我想训练训练来识别比较针对性的词语,比如医学术语,共有400多种字,我自己用了随机组合的汉字训练,采用不同的背景图片和字体,做了一些旋转等操作,每个label对应大概五十张图片,总共大概生成了一千万张,我断断续续从自己的模型不断改learning rate,训练了一周,但效果还是不好。

日志如下: Test loss: 2.800290, accuray: 0.511875 [0/1000][600/14023] Loss: 1.290660 [0/1000][700/14023] Loss: 1.267384 [0/1000][800/14023] Loss: 1.317568 [0/1000][900/14023] Loss: 1.285588 [0/1000][1000/14023] Loss: 1.288802

感觉还是没有收敛,而且有些过拟合。请问下,是否我不应该用随机词,而是用语料库,还是说我的数据集还是不够大?或者你有没有其他建议? 非常感谢!