截图识别比PDF文档识别效果好

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

27.45k stars 2.76k forks source link

2.1.4

win11

PaddleOCR

识别文档中的“不寐”两字时，截图识别可以很容易的识别出来，而批量文档识别，却识别不出“寐”字，或者错识别出其它文字。

调大“限制图片边长”，也无法解决。在处理其它文档时也有类似的问题。

请问，我在批量文档识别时，需要注意什么配置吗？或者需要对PDF做什么预处理操作。

源文件PDF截图：

配置：

hiroi-sora / Umi-OCR