hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
23.05k stars 2.35k forks source link

关于 语言/模型库 简/繁 办识率 #455

Closed peter8777555 closed 1 month ago

peter8777555 commented 3 months ago

Umi-OCR version 程序版本

2.1.1

Windows version 系统版本

Windows 11

OCR plugins Used 使用的OCR插件

PaddleOCR

Reproduction steps 复现步骤

我附上 2 张 繁中 的 PNG 文件, 最新版 Umi-OCR v2.1.1 (Umi-OCR_Paddle_v2.1.1.7z.exe)

理论上, 我这是 繁中,所以 语言/模型库 选 繁中, 奇怪的是 办识率 不高,贼多错误.

但是 语言/模型库 选 简中, 奇怪的是 办识率 提高贼多.

这是啥情况 ? 或 增加一个选项, 语言/模型库 选 简中, 最后结果显示 繁中.

Sample.zip

Problem screenshots or related files (optional) 问题截图或相关文件(可选)

No response

qwedc001 commented 3 months ago

你好,经过对paddle本身的命令行测试,可以确定本issue所提内容为Paddle模型库本身问题。 本软件所采取的OCR引擎为PaddleOCR v3,其模型对于简体中文与英文训练的数据量要高于繁体中文和其他语种。会存在有识别率下降的情况。最直观的体现在于,识别内容的置信度下降。 附:繁中模型库的命令行识别结果,其中每段文字后跟的数字为置信度 image 后续,本软件会接入在线OCR接口,到时可以使用各大厂商提供的OCR服务,准确性应该会上升。或者也可以推荐更好的繁中模型库,我们会尝试进行适配。

peter8777555 commented 3 months ago

感谢测试.

目前先以 简中模型库 使用,