为什么把中英文实验分开做呢？

senlinuc / caffe_ocr

主流ocr算法研究实验性的项目，目前实现了CNN+BLSTM+CTC架构

1.26k stars 535 forks source link

为什么把中英文实验分开做呢？ #6

Open JacobianTang opened 6 years ago

JacobianTang commented 6 years ago

在中文实验上很明显backbone（特征提取网络）增强之后，结果变好了。但是真是情况应该是中英文混合，或者整个测试集里面既有英文也有中文，以我的经验来看，感受野大了之后，对英文来说未必是好事。所以backbone的那一栏实验结果，不知道在混合数据集上表现如何？

方便透漏下个人邮箱吗？希望和你通过邮箱有进一步交流。

senlinuc commented 6 years ago

不太清楚你说的backbone是什么意思。中英混合的情况这里确实没有考虑。另外你说的感受野也确实是影响精度的重要因素，感受野太小的话每个时刻的特征就难有很好的代表性和区分性，感受野太大的话又容易带来混淆和漏字，这个要根据实际数据的情况来调整。191238062，我的QQ，欢迎一起讨论。

JacobianTang commented 6 years ago

有验证的哦

jxlijunhao commented 6 years ago

@senlinuc 我也发现了这个问题，第一次做ocr，经验不是很丰富，现在我的做法是在中文的数据集dataset1中训练得差不多后，更新数据集dataset2（加入英文+数字，注：dataset1中也存在英文，数字，只不过dataset2增强了英文，数字样本比例），不知道你们怎么看。 @JacobianTang @senlinuc

senlinuc commented 6 years ago

我生成的中文数据集里也有少量英文和数字，这种中英混合我感觉只要总量足够，比例调整好，应该可以一次训练。

fendaq commented 6 years ago

@senlinuc @jxlijunhao @JacobianTang 我也在做crnn 中文识别，我建了一个Q群：274634783 ,有兴趣的加一下，讨论问题方便一点。

xiaomaxiao commented 6 years ago

@senlinuc 试验过英文CNN+LSTM+CTC 没有出现丢字符的情况。是不是英文太少，或者语料中中英应该在一起、？

Nic-Ma commented 6 years ago

Hi Senlinuc,

我是英伟达上海研发部Nic，你的QQ加不上，方便加微信吗？谢谢！