FudanNLPLAB / CBook-150K

中文图书语料MD5链接
Apache License 2.0
210 stars 23 forks source link

里面很多扫描版的PDF, 请问大家怎么解析文本的 #5

Open Ontheroad123 opened 1 year ago

bipedalBit commented 1 year ago

tesseract-ocr、paddle-ocr,没显卡极慢。 ocr普遍字体敏感,质量存疑,需要做ppl过滤。

Emanual20 commented 1 year ago

尝试baidu-aip,原理ocr,纯文本在pdf背景噪声比较大的时候错误率较高,涉及数学公式的文本识别质量尤其差,请问有其他好的解决方案吗?

Ontheroad123 commented 1 year ago

我目前用的pytesseract,测试所有免费的库中相对较好的(会出现乱码情况),错字之类的用专门的语法校正模型去改

xinbingzhe commented 1 year ago

hello 现在插件不能用了, 转存好的 md5文件能分享一份嘛