senlinuc / caffe_ocr

主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构
1.26k stars 535 forks source link

为什么把中英文实验分开做呢? #6

Open JacobianTang opened 6 years ago

JacobianTang commented 6 years ago

在中文实验上很明显backbone(特征提取网络)增强之后,结果变好了。但是真是情况应该是中英文混合,或者整个测试集里面既有英文也有中文,以我的经验来看,感受野大了之后,对英文来说未必是好事。所以backbone的那一栏实验结果,不知道在混合数据集上表现如何?

方便透漏下个人邮箱吗?希望和你通过邮箱有进一步交流。

senlinuc commented 6 years ago

不太清楚你说的backbone是什么意思。中英混合的情况这里确实没有考虑。另外你说的感受野也确实是影响精度的重要因素,感受野太小的话每个时刻的特征就难有很好的代表性和区分性,感受野太大的话又容易带来混淆和漏字,这个要根据实际数据的情况来调整。191238062,我的QQ,欢迎一起讨论。

JacobianTang commented 6 years ago

有验证的哦

jxlijunhao commented 6 years ago

@senlinuc 我也发现了这个问题,第一次做ocr,经验不是很丰富,现在我的做法是在中文的数据集dataset1中训练得差不多后,更新数据集dataset2(加入英文+数字,注:dataset1中也存在英文,数字,只不过dataset2增强了英文,数字样本比例),不知道你们怎么看。 @JacobianTang @senlinuc

senlinuc commented 6 years ago

我生成的中文数据集里也有少量英文和数字,这种中英混合我感觉只要总量足够,比例调整好,应该可以一次训练。

fendaq commented 6 years ago

@senlinuc @jxlijunhao @JacobianTang 我也在做crnn 中文识别,我建了一个Q群:274634783 ,有兴趣的加一下,讨论问题方便一点。

xiaomaxiao commented 6 years ago

@senlinuc 试验过 英文CNN+LSTM+CTC 没有出现丢字符的情况。 是不是 英文太少,或者语料中 中英应该在一起、?

Nic-Ma commented 6 years ago

Hi Senlinuc,

我是英伟达上海研发部Nic,你的QQ加不上,方便加微信吗? 谢谢!