senlinuc / caffe_ocr

主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构
1.26k stars 535 forks source link

关于todo list 中的语料平衡性问题,楼主有什么好的想法,一起交流一下 #8

Open fendaq opened 6 years ago

senlinuc commented 6 years ago

我还不太确定语料平衡能带来多大的提升,不过目前我想到一个简单的方法:先统计字频,再计算出每个句子的平均字频(语料最终会拆分成单个句子),再对句子进行复制,频率低的多复制几份,最后再对新的句子列表均匀采样