OCR 识别后，期望能保留原图的排版，包括段落、字号等

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

26.05k stars 2.64k forks source link

OCR 识别后，期望能保留原图的排版，包括段落、字号等 #542

Closed kenverzhu closed 3 months ago

kenverzhu commented 4 months ago

Issues

[X] I have browsed through the Issues. 我已浏览过Issues，确定没有重复的建议。

Expected behavior 预期的功能

大咖，我提个功能需求哈。期望有这样一个强大的功能：OCR 识别后，期望能保留原图的排版，包括段落、字号、粗斜体等等，然后可以一键产生到 Word.

Approximate reference (optional) 近似的参考（可选）

No response

Gavin1937 commented 3 months ago

感觉这个需求过于复杂了，比如说下面这两段话：

第一段是两个段落在行间距1.15下的情况

第二段是一个段落在行间距1.5下的情况

这俩人眼看起来基本没区别，想让OCR识别后再保留它们的排版就更难了。

当然也可以尝试去写一套非常复杂的逻辑来判断一行字的末尾是否为一段话的结尾，不过bug一定多。

至于识别粗斜体的话，也许可行？

hiroi-sora commented 3 months ago

OCR 识别后，期望能保留原图的排版，包括段落、字号、粗斜体等等，然后可以一键产生到 Word

样式信息（段落、字号、粗斜体）隐含在局部段落的整体形状中，需要模型具有更高层次的特征提取和理解能力才能准确识别。
现在的OCR训练集都是标注文字内容，很少有数据集标注了样式信息，因此缺乏训练素材。
文本图像可能存在噪声、模糊等问题。当前OCR对这些素材进行文字识别已经是较难的课题，而从中提取样式信息更难了。

因此，现有传统CRNN架构的OCR模型，技术上是难以实现样式提取的。

不过，未来大模型 / 端到端级OCR的发展，也许能解决该问题。等待将来的技术吧。

kenverzhu commented 3 months ago

文字识别：使用OCR技术对图像中的文字进行识别，保留原始图片中的格式信息，如字号、粗斜体等，并将这些信息保存在识别结果中。文档处理：使用文档处理库（如Apache POI或OpenXML SDK）根据识别结果中的格式信息，对识别的文字进行排版，包括设置字号、粗斜体、段落格式等。字体匹配：使用字体匹配算法，尝试匹配识别的文字与系统中已有的字体，以尽可能保持原始字体的风格。手动校对：提供手动校对的功能，让用户对排版进行微调和修正。

kenverzhu commented 3 months ago

不过确实有点复杂，感觉可能需要引入AI。