里面很多扫描版的PDF, 请问大家怎么解析文本的

FudanNLPLAB / CBook-150K

中文图书语料MD5链接

Apache License 2.0

210 stars 23 forks source link

Open Ontheroad123 opened 1 year ago

bipedalBit commented 1 year ago

tesseract-ocr、paddle-ocr，没显卡极慢。 ocr普遍字体敏感，质量存疑，需要做ppl过滤。

Emanual20 commented 1 year ago

尝试baidu-aip，原理ocr，纯文本在pdf背景噪声比较大的时候错误率较高，涉及数学公式的文本识别质量尤其差，请问有其他好的解决方案吗？

Ontheroad123 commented 1 year ago

我目前用的pytesseract，测试所有免费的库中相对较好的（会出现乱码情况），错字之类的用专门的语法校正模型去改

xinbingzhe commented 1 year ago

hello 现在插件不能用了，转存好的 md5文件能分享一份嘛