senlinuc / caffe_ocr

主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构
1.26k stars 535 forks source link

中文数据样本生成时,怎样从语料库中随机截取10个字符? #26

Closed ZhuanDJ closed 6 years ago

ZhuanDJ commented 6 years ago

语料库一般都是txt文件,其中有空格和换行情况,怎样保证读取txt时去除这种情况。而且中文与数字占用字节数不同,怎样能够随机截取连续的10个字符?

senlinuc commented 6 years ago
  1. 先把预料拆成句子,去空格
  2. 生成数据时随机选几个句子,转成unicode,句子串成一个字符串,再随机选一个开始的位置,截取一个字数为10的子串
ZhuanDJ commented 6 years ago

好的,非常感谢