hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.48k stars 2.76k forks source link

请问识别的英文字母之间没有空格了怎么解决? #240

Closed jiamsu closed 7 months ago

jiamsu commented 12 months ago

识别的英文单词之间没有空格了怎么解决?

hiroi-sora commented 12 months ago

image

如图,语言/模型库切换为English即可。

sw9203 commented 12 months ago

image

如图,语言/模型库切换为English即可。

中英混合的场景无法使用QAQ,模型库选中文则会有空格、下划线等符号无法正确识别/输出的问题

hiroi-sora commented 12 months ago

很遗憾,这是Paddle系列模型库的祖传问题,中文训练集出来的模型对于英文场景会出现空格丢失问题。

未来Umi-OCR将引入更多OCR引擎插件,将一些中英文混杂情景下精准度更高的项目做成插件。

ppkdclry commented 7 months ago

不知道最新的Paddle系列模型库是否更新过哈,能不能解决中文情景下的空格丢失的问题?

hiroi-sora commented 7 months ago

不知道最新的Paddle系列模型库是否更新过哈,能不能解决中文情景下的空格丢失的问题?

很遗憾:

不过: