请问您训练中文包含多少个字，crnn模型

ghost commented 7 years ago

打扰您，请问您的crnn模型涵盖的中文有多少个字，是常用字吗

YoungMiao commented 7 years ago

GitHub上的模型只是用21个中英文做的demo，我们已经实现了4000多常用汉字模型

wanghaisheng commented 7 years ago

@wulivicte 啥时候放细节

doudoubean commented 7 years ago

现在没有时间，等有空了，再分享！

xiaomaxiao commented 7 years ago

@wulivicte 汉字样本是随机组合还是语料？

YoungMiao commented 7 years ago

@xiaomaxiao 语料

xiaomaxiao commented 7 years ago

@wulivicte 一次多少个字？多少样本啊？

YoungMiao commented 7 years ago

@xiaomaxiao 目前是4000多常用字儿，因为词儿比较多，所以样本也在千万级

xiaomaxiao commented 7 years ago

@wulivicte
如果是随机组合汉字的话，是不是没法收敛？

YoungMiao commented 7 years ago

@xiaomaxiao 目前我们没有使用随机组合的汉字训练，但是猜测是可以收敛的，随机组合汉字在语料训练的模型上预测结果比较可观

xiaomaxiao commented 7 years ago

@wulivicte 请问，语料是从哪找的，可否分享下

YoungMiao commented 7 years ago

@xiaomaxiao 是下载网上得语料库，你可以在我的网盘下载链接：http://pan.baidu.com/s/1jHYJeh4 密码：fdtk

xiaomaxiao commented 7 years ago

@wulivicte 这个语料库没有标点符号，也没英文字符。

YoungMiao commented 7 years ago

@xiaomaxiao 你好，我们目前训练的语料只针对常用汉字的训练

xiaomaxiao commented 7 years ago

@wulivicte 语料库中有些字出现的频率很小，而有些则很大，请问平衡问题您是怎么解决的？

ethan-funny commented 6 years ago

@YoungMiao ，我从百度盘上将语料库下载下来，发现还需要解压密码，请问解压密码是啥？非常感谢！

liangshuang1993 commented 6 years ago

@YoungMiao 你好，我想训练训练来识别比较针对性的词语，比如医学术语，共有400多种字，我自己用了随机组合的汉字训练，采用不同的背景图片和字体，做了一些旋转等操作，每个label对应大概五十张图片，总共大概生成了一千万张，我断断续续从自己的模型不断改learning rate，训练了一周，但效果还是不好。

日志如下： Test loss: 2.800290, accuray: 0.511875 [0/1000][600/14023] Loss: 1.290660 [0/1000][700/14023] Loss: 1.267384 [0/1000][800/14023] Loss: 1.317568 [0/1000][900/14023] Loss: 1.285588 [0/1000][1000/14023] Loss: 1.288802

感觉还是没有收敛，而且有些过拟合。请问下，是否我不应该用随机词，而是用语料库，还是说我的数据集还是不够大？或者你有没有其他建议？非常感谢！

tongpi / basicOCR

请问您训练中文包含多少个字，crnn模型 #19

tongpi / basicOCR

请问您训练中文包含多少个字 ，crnn模型 #19

请问您训练中文包含多少个字，crnn模型 #19