hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
24.51k stars 2.48k forks source link

省略号经常识别不上 #369

Closed ghost closed 6 months ago

ghost commented 6 months ago

....,类似这样的语句中的小点经常识别不出来或者是只识别出来了一点点有些小点还被识别成了其他的字。 截图20240225011547 截图20240225011603

ghost commented 6 months ago

我又试了一下发现批量识别时候省略号一般都能识别上,但是截图识别时反而经常识别不上。

hiroi-sora commented 6 months ago

符号识别率低,是大部分OCR程序都面临的难点,目前的技术不容易解决。

至于截图和批量的准确度不同,可能是图像范围、分辨率、图像编码等有所不同带来的干扰。像省略号这种程序不容易认出来的符号,如果截图的范围稍微偏差一点,那么神经网络推理的结果确实可能产生差异。

根据经验,截图时边缘四周留足至少1倍行高的空白区域,似乎对识别效果有所改善。

ghost commented 6 months ago

好的明白了,谢谢