Closed ghost closed 7 years ago
GitHub上的模型只是用21个中英文做的demo,我们已经实现了4000多常用汉字模型
@wulivicte 啥时候放细节
现在没有时间,等有空了,再分享!
@wulivicte 汉字样本是随机组合 还是语料?
@xiaomaxiao 语料
@wulivicte 一次多少个字?多少样本啊?
@xiaomaxiao 目前是4000多常用字儿,因为词儿比较多,所以样本也在千万级
@wulivicte
如果是随机组合汉字的话,是不是没法收敛?
@xiaomaxiao 目前我们没有使用随机组合的汉字训练,但是猜测是可以收敛的,随机组合汉字在语料训练的模型上预测结果比较可观
@wulivicte 请问 ,语料是从哪找的,可否分享下
@xiaomaxiao 是下载网上得语料库,你可以在我的网盘下载链接:http://pan.baidu.com/s/1jHYJeh4 密码:fdtk
@wulivicte 这个语料库 没有标点符号, 也没英文字符。
@xiaomaxiao 你好,我们目前训练的语料只针对常用汉字的训练
@wulivicte 语料库中有些字出现的频率很小,而有些则很大,请问平衡问题您是怎么解决的?
@YoungMiao ,我从百度盘上将语料库下载下来,发现还需要解压密码,请问解压密码是啥?非常感谢!
@YoungMiao 你好,我想训练训练来识别比较针对性的词语,比如医学术语,共有400多种字,我自己用了随机组合的汉字训练,采用不同的背景图片和字体,做了一些旋转等操作,每个label对应大概五十张图片,总共大概生成了一千万张,我断断续续从自己的模型不断改learning rate,训练了一周,但效果还是不好。
日志如下: Test loss: 2.800290, accuray: 0.511875 [0/1000][600/14023] Loss: 1.290660 [0/1000][700/14023] Loss: 1.267384 [0/1000][800/14023] Loss: 1.317568 [0/1000][900/14023] Loss: 1.285588 [0/1000][1000/14023] Loss: 1.288802
感觉还是没有收敛,而且有些过拟合。请问下,是否我不应该用随机词,而是用语料库,还是说我的数据集还是不够大?或者你有没有其他建议? 非常感谢!
打扰您,请问您的crnn模型涵盖的中文有多少个字,是常用字吗