Closed peter8777555 closed 1 month ago
你好,经过对paddle本身的命令行测试,可以确定本issue所提内容为Paddle模型库本身问题。
本软件所采取的OCR引擎为PaddleOCR v3,其模型对于简体中文与英文训练的数据量要高于繁体中文和其他语种。会存在有识别率下降的情况。最直观的体现在于,识别内容的置信度下降。
附:繁中模型库的命令行识别结果,其中每段文字后跟的数字为置信度
后续,本软件会接入在线OCR接口,到时可以使用各大厂商提供的OCR服务,准确性应该会上升。或者也可以推荐更好的繁中模型库,我们会尝试进行适配。
感谢测试.
目前先以 简中模型库 使用,
Umi-OCR version 程序版本
2.1.1
Windows version 系统版本
Windows 11
OCR plugins Used 使用的OCR插件
PaddleOCR
Reproduction steps 复现步骤
我附上 2 张 繁中 的 PNG 文件, 最新版 Umi-OCR v2.1.1 (Umi-OCR_Paddle_v2.1.1.7z.exe)
理论上, 我这是 繁中,所以 语言/模型库 选 繁中, 奇怪的是 办识率 不高,贼多错误.
但是 语言/模型库 选 简中, 奇怪的是 办识率 提高贼多.
这是啥情况 ? 或 增加一个选项, 语言/模型库 选 简中, 最后结果显示 繁中.
Sample.zip
Problem screenshots or related files (optional) 问题截图或相关文件(可选)
No response