senlinuc / caffe_ocr

主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构
1.26k stars 535 forks source link

可否公开一下生成中文训练数据的代码? #33

Open Ruochen0715 opened 6 years ago

Ruochen0715 commented 6 years ago

三百多万的中文数据集是从新闻语料中自动生成的 说真的,生成的真不错,加入的噪音和模糊与真实条件下的噪音模糊非常相似 能否公开一下生成数据的代码呢?不胜感激

blacklee5 commented 6 years ago

@senlinuc 样本生成工具生成效果确实很不错,何时能公开呢?

EriCongMa commented 5 years ago

@senlinuc 同样特别希望可以能有样本的生成工具,或者有相关论文也可以,希望作者可以回复一下,不胜感激