英文内容识别中，空格的识别率较低 - Githubissues

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

27.49k stars 2.76k forks source link

英文内容识别中，空格的识别率较低 #42

Closed apiooo closed 2 years ago

apiooo commented 2 years ago

操作系统：Microsoft Windows 11 操作系统名称： 10.0.22000 缺Build 22000 操作系统制造版本：微软公司操作系统配置：独立工作站专业版操作系统制造商类型：多处理器自由系统制造商：AZW 系统型号：GTR 系统类型：x64-based PC 处理器：AMD64 Family 25 Model 80 Stepping 0 AuthenticAMD ~3301 Mhz

Umi-OCR版本：1.3

目前 PaddleOCR 模型中好像针对英文中的空格识别率较低，不知道是否可以支持其它英文识别较好的OCR工具

hiroi-sora commented 2 years ago

update：v1.3.2 版的多国语言扩展包已加入纯英文库，可避免此问题。有大量英文ocr需求的用户下载扩展包切换到英文即可。

（楼下指的是v1.3.1的多国语言包，当时还未加入英文。）

我测试了一下，空格识别率低似乎是简体中文模型库的专属毛病，换用繁中/日文/韩文/法文模型库均无此问题。

apiooo commented 2 years ago

我有下载你整理的多语言库。也是同样的结果。必须在这里更改模型库噢

hiroi-sora commented 2 years ago

空格丢失现象跟图像关系很大。

我测试了很多英文文章截图，对常规样式的文字，并不会频繁出现空格丢失。换用非简中模型库（如繁中）后会进一步减少该现象，几乎可以忽略。如果画质模糊 / 字体空格间距较小 / 除文本外含有多余的图形 / 多种不同大小、粗细的文本混排（如你贴的例图），确实会增加空格丢失或者识别不准的概率。

目前我不认为这是一个严重的问题，PPOCR引擎在大部分场景中表现良好。如果你还有更多例图，证实在常见场景中，使用非简中库也会频繁出现空格丢失，请贴出来，我再调查一下。

如果确实要改，我还想到一些解决方案，比如使用wordninja等英文分词库进行后处理，补充缺失的空格。以后的版本可能会考虑安排上。