hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.53k stars 2.77k forks source link

文档转换不能保存为WORD文档 这个功能很重要 #708

Open sankeyou123 opened 3 weeks ago

sankeyou123 commented 3 weeks ago

Issues

Expected behavior 预期的功能

文档转换不能保存为WORD文档 这个功能很重要

Approximate reference (optional) 近似的参考(可选)

No response

hiroi-sora commented 3 weeks ago

感谢建议。

受技术限制,我们暂时只能从图片/扫描件中提取文本内容、位置,并简单预估段落结构。无法识别出字体、字号、标题、真实排版结构等信息,而这些信息是组成Word等文档的重要因素。

因此,可能在未来更新底层识别技术后才会引入Word生成功能。短期内,你可以根据识别出的txt纯文本手动创建Word文档。