hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
25.59k stars 2.59k forks source link

pdf to word好像很火,这个搞pdf to word难吗? #265

Closed basicbh closed 7 months ago

basicbh commented 9 months ago

每页pdf搞成图片,扫描,然后拼接成pdf,是这样搞吗?

hiroi-sora commented 9 months ago

pdf转txt或者文本pdf都相对容易,在本项目的未来计划之内。

转word更难,需要额外对word格式进行解析和写入,要考虑各种字体、编码、排版等。本项目暂时没有转word的计划。

hiroi-sora commented 7 months ago

v2.1.0 测试版 已支持PDF识别。(暂不支持转为word)

https://github.com/hiroi-sora/Umi-OCR/releases