可否公开一下生成中文训练数据的代码？

senlinuc / caffe_ocr

主流ocr算法研究实验性的项目，目前实现了CNN+BLSTM+CTC架构

1.26k stars 535 forks source link

Open Ruochen0715 opened 6 years ago

Ruochen0715 commented 6 years ago

三百多万的中文数据集是从新闻语料中自动生成的说真的，生成的真不错，加入的噪音和模糊与真实条件下的噪音模糊非常相似能否公开一下生成数据的代码呢？不胜感激

blacklee5 commented 6 years ago

@senlinuc 样本生成工具生成效果确实很不错，何时能公开呢？

EriCongMa commented 5 years ago

@senlinuc 同样特别希望可以能有样本的生成工具，或者有相关论文也可以，希望作者可以回复一下，不胜感激