senlinuc / caffe_ocr

主流ocr算法研究实验性的项目,目前实现了CNN+BLSTM+CTC架构
1.26k stars 536 forks source link

语料库 #48

Open LiangHao92 opened 6 years ago

LiangHao92 commented 6 years ago

你好,能否提供一下你的中文语料库呢,不胜感激

bestzld commented 6 years ago

不是有么,搜狗那个新闻语料库,然后写个脚本把content获取出来合并一下就能用了 搜狐新闻数据