能否添加OCR扫描版pdf文档功能

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

27.49k stars 2.76k forks source link

Closed githubmango0509 closed 10 months ago

githubmango0509 commented 2 years ago

现实操作中，除了直接操作图片外，也有不少扫描过的pdf文档，不能直接提取文字。需要先转化成图片再OCR。如果能在打开文件夹选取图片时多加一个pdf类型，并在开始任务时自动先转化成临时同名图片文件，任务完成后再自动删除临时图片文件，那就厉害了！这个建议可能有点过高，作者量力而行就是了，谢谢！

hiroi-sora commented 2 years ago

已有识别pdf的计划，预计在未来的大版本中作为开发重点。当前大版本还待解决一些历史遗留问题。我近期也比较忙，暂时没有开发大型新功能的精力。

开始任务时自动先转化成临时同名图片文件

这样处理最简单，甚至在当前大版本的框架内加上也未尝不可。但我是希望做的话做得更好，内存传图，输出还原排版的word/pdf，忽略水印，都安排上。

githubmango0509 commented 2 years ago

支持作者的思路，期待更完美的作品，辛苦了！

jusanyuan commented 1 year ago

太期待了，'这样处理最简单，甚至在当前大版本的框架内加上也未尝不可。但我是希望做的话做得更好，内存传图，输出还原排版的word/pdf，忽略水印，都安排上。"

jusanyuan commented 1 year ago

太期待了

hiroi-sora commented 10 months ago

v2.1.0 测试版已支持PDF识别。