hiroi-sora / RapidOCR-json

OCR离线图片文字识别命令行windows程序,以JSON字符串形式输出结果,方便别的程序调用。基于 RapidOcrOnnx 。
MIT License
172 stars 30 forks source link

【提问】OCR 的速度是否与图片格式有关? #12

Closed Leowolf93 closed 7 months ago

Leowolf93 commented 7 months ago

目前我识别的文件格式的未经压缩的 bmp 位图格式,一张大概在 8m 左右。 想请问一下,如果把它压缩成 jpg,是否会有识别速度方面的提升? 非常感谢。

hiroi-sora commented 7 months ago

理论上与图片格式关系不大,因为OCR引擎将它载入内存后,都会解码为位图,OCR的过程是在位图上计算。甚至说,你传bmp进去,或许还可以节省解码的开销。(当然,解码开销本来就很低,大头在OCR上。)

(不过,bmp图片文件太大的话,从硬盘读取的时间可能也相应增加。)

将图片转为灰度图应该可以提高识别速度,减少了两个通道的计算量。

按理说准确度与图片格式没有关系的,因为内存中都会解码为位图。

但在实践中,我个人发现,对于Paddle系模型(包括本项目):同一张图片以jpg格式导入OCR,识别精度会弱于png。表现之一是单词间空格缺失的现象有所增加。

目前并不清楚原因,感觉有点玄学。反正在我的Umi-OCR中,暂时是尽量避免用jpg格式中转。

Leowolf93 commented 7 months ago

谢谢大佬的回复,解决了很多的疑问。