Closed apiooo closed 2 years ago
update:v1.3.2 版的多国语言扩展包已加入纯英文库,可避免此问题。有大量英文ocr需求的用户下载扩展包切换到英文即可。
(楼下指的是v1.3.1的多国语言包,当时还未加入英文。)
我测试了一下,空格识别率低似乎是简体中文模型库的专属毛病,换用繁中/日文/韩文/法文模型库均无此问题。
我有下载你整理的多语言库。也是同样的结果。 必须在这里更改模型库噢
空格丢失现象跟图像关系很大。
我测试了很多英文文章截图,对常规样式的文字,并不会频繁出现空格丢失。换用非简中模型库(如繁中)后会进一步减少该现象,几乎可以忽略。 如果画质模糊 / 字体空格间距较小 / 除文本外含有多余的图形 / 多种不同大小、粗细的文本混排(如你贴的例图),确实会增加空格丢失或者识别不准的概率。
目前我不认为这是一个严重的问题,PPOCR引擎在大部分场景中表现良好。如果你还有更多例图,证实在常见场景中,使用非简中库也会频繁出现空格丢失,请贴出来,我再调查一下。
如果确实要改,我还想到一些解决方案,比如使用wordninja
等英文分词库进行后处理,补充缺失的空格。以后的版本可能会考虑安排上。
操作系统:Microsoft Windows 11 操作系统名称: 10.0.22000 缺Build 22000 操作系统制造版本:微软公司 操作系统配置:独立工作站专业版操作系统制造商 类型:多处理器自由 系统制造商:AZW 系统型号:GTR 系统类型:x64-based PC 处理器:AMD64 Family 25 Model 80 Stepping 0 AuthenticAMD ~3301 Mhz
Umi-OCR版本:1.3
目前 PaddleOCR 模型中好像针对英文中的空格识别率较低,不知道是否可以支持其它英文识别较好的OCR工具