中文数据样本生成时，怎样从语料库中随机截取10个字符？

senlinuc / caffe_ocr

主流ocr算法研究实验性的项目，目前实现了CNN+BLSTM+CTC架构

1.26k stars 535 forks source link

Closed ZhuanDJ closed 6 years ago

ZhuanDJ commented 6 years ago

语料库一般都是txt文件，其中有空格和换行情况，怎样保证读取txt时去除这种情况。而且中文与数字占用字节数不同，怎样能够随机截取连续的10个字符？

senlinuc commented 6 years ago

ZhuanDJ commented 6 years ago

好的，非常感谢