hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
23.05k stars 2.35k forks source link

Rapid和Paddle都无法正确识别瘪字 #475

Closed Xmug closed 1 month ago

Xmug commented 2 months ago

Issues

Umi-OCR version 程序版本

2.1.1

Windows version 系统版本

win11

OCR plugins Used 使用的OCR插件

PaddleOCR, RapidOCR

Reproduction steps 复现步骤

Paddle会识别成别的字,Rapid则干脆不识别。 另外Rapid有时能识别出憋字,有时不能。 QQ截图20240416101258 QQ截图20240416101108

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

No response

qwedc001 commented 2 months ago

你好,经过对于 paddle 和 rapid 本身的命令行测试,得出的结论为 #447 FAQ issue中的“某种语言识别准确率低”。 例: paddle 测试用命令行:

paddleocr --image_dir ./test.png --use_angle_cls true --use_gpu false

命令行返回结果: image

我对 paddle 的词典文件查找了一下,词典文件中是有“憋”字的,可能识别的优先级比较低。这个问题并非 Umi 所能解决的的 issue 范围之内,请前往 PaddleOCR 开源项目RapidOCR开源项目 进行反馈。我们会在模型文件更新后使用最新的离线模型作为 Umi 的内置模型。或者您也可以等待我们后续对于在线 OCR API 的适配。