hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.49k stars 2.76k forks source link

英文内容识别中,空格的识别率较低 #42

Closed apiooo closed 2 years ago

apiooo commented 2 years ago

操作系统:Microsoft Windows 11 操作系统名称: 10.0.22000 缺Build 22000 操作系统制造版本:微软公司 操作系统配置:独立工作站专业版操作系统制造商 类型:多处理器自由 系统制造商:AZW 系统型号:GTR 系统类型:x64-based PC 处理器:AMD64 Family 25 Model 80 Stepping 0 AuthenticAMD ~3301 Mhz

Umi-OCR版本:1.3

image image

目前 PaddleOCR 模型中好像针对英文中的空格识别率较低,不知道是否可以支持其它英文识别较好的OCR工具

hiroi-sora commented 2 years ago

update:v1.3.2 版的多国语言扩展包已加入纯英文库,可避免此问题。有大量英文ocr需求的用户下载扩展包切换到英文即可。

(楼下指的是v1.3.1的多国语言包,当时还未加入英文。)


我测试了一下,空格识别率低似乎是简体中文模型库的专属毛病,换用繁中/日文/韩文/法文模型库均无此问题。

image

apiooo commented 2 years ago

我有下载你整理的多语言库。也是同样的结果。 image 必须在这里更改模型库噢

hiroi-sora commented 2 years ago

空格丢失现象跟图像关系很大。

我测试了很多英文文章截图,对常规样式的文字,并不会频繁出现空格丢失。换用非简中模型库(如繁中)后会进一步减少该现象,几乎可以忽略。 如果画质模糊 / 字体空格间距较小 / 除文本外含有多余的图形 / 多种不同大小、粗细的文本混排(如你贴的例图),确实会增加空格丢失或者识别不准的概率。

目前我不认为这是一个严重的问题,PPOCR引擎在大部分场景中表现良好。如果你还有更多例图,证实在常见场景中,使用非简中库也会频繁出现空格丢失,请贴出来,我再调查一下。

如果确实要改,我还想到一些解决方案,比如使用wordninja等英文分词库进行后处理,补充缺失的空格。以后的版本可能会考虑安排上。