引入其他开源PDF OCR项目用于扫描件PDF的识别

1Panel-dev / MaxKB

🚀 MaxKB 是一款基于大语言模型和 RAG 的开源知识库问答系统，广泛应用于智能客服、企业内部知识库、学术研究与教育等场景。

https://maxkb.cn/

GNU General Public License v3.0

11.3k stars 1.48k forks source link

Open HonorWater opened 4 months ago

HonorWater commented 4 months ago

v1.2.0

首先感谢开发者开源这么好的项目！有很多的PDF文档都是扫描件，MaxKB是无法正常识别的。

希望可以加入PDF的OCR功能，可以对PDF导入后先进行OCR识别：一般都是把PDF每一页转换为图片，然后进行识别。可以参考这个开源项目：https://github.com/hiroi-sora/Umi-OCR 他的OCR识别效果还是很好的

No response

baixin513 commented 4 months ago

感谢反馈，我们先调研一下。