hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
23.48k stars 2.39k forks source link

保存为doc文件 #407

Closed bolatos closed 4 months ago

bolatos commented 4 months ago

识别文档的时候,希望可以按照原格式保存为office文件,优化段落排序。

hiroi-sora commented 4 months ago

技术上不容易实现,需要进一步推测字号、分栏数、文本类别(正文or标题or跨栏元素)等。虽然生成docx文件很简单,但“还原原始格式”非常困难。短期内应该不会推出此功能。