hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.21k stars 2.73k forks source link

能否添加OCR扫描版pdf文档功能 #52

Closed githubmango0509 closed 9 months ago

githubmango0509 commented 2 years ago

现实操作中,除了直接操作图片外,也有不少扫描过的pdf文档,不能直接提取文字。需要先转化成图片再OCR。如果能在打开文件夹选取图片时多加一个pdf类型,并在开始任务时自动先转化成临时同名图片文件,任务完成后再自动删除临时图片文件,那就厉害了!这个建议可能有点过高,作者量力而行就是了,谢谢!

hiroi-sora commented 2 years ago

已有识别pdf的计划,预计在未来的大版本中作为开发重点。当前大版本还待解决一些历史遗留问题。我近期也比较忙,暂时没有开发大型新功能的精力。

开始任务时自动先转化成临时同名图片文件

这样处理最简单,甚至在当前大版本的框架内加上也未尝不可。 但我是希望做的话做得更好,内存传图,输出还原排版的word/pdf,忽略水印,都安排上。

githubmango0509 commented 2 years ago

支持作者的思路,期待更完美的作品,辛苦了!

jusanyuan commented 1 year ago

太期待了,'这样处理最简单,甚至在当前大版本的框架内加上也未尝不可。 但我是希望做的话做得更好,内存传图,输出还原排版的word/pdf,忽略水印,都安排上。"

jusanyuan commented 1 year ago

太期待了

hiroi-sora commented 9 months ago

v2.1.0 测试版 已支持PDF识别。

https://github.com/hiroi-sora/Umi-OCR/releases