hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
27.2k stars 2.73k forks source link

作者大大,这个好像识别不了花括号 #109

Closed BlueBloodFire closed 1 year ago

BlueBloodFire commented 1 year ago

虽然字典上面有花括号,但每次识别的时候不是忽略掉,乱码,未识别到,就是直接将花括号当成圆括号处理了,请问是什么问题呀?

hiroi-sora commented 1 year ago

模型训练的问题吧,花括号在日常场景中出现频率较低,所以对于Paddle的通用模型,会优先将 { 识别为形状类似的、更常见的符号。

解决这个问题的方法可能是训练专门的垂类模型。比如你想用来识别代码,就用代码截图来训练模型,那样对 { } 这些代码中常见符号的识别率会更高。

本项目目前的目标是通用领域,所以暂时没有推出垂类模型的计划;有需要你可以了解一下PaddleOCR官方的 模型训练教程

BlueBloodFire commented 1 year ago

收到,非常感谢!

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2023年04月04日 15:42 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [hiroi-sora/Umi-OCR] 作者大大,这个好像识别不了花括号 (Issue #109) |

模型训练的问题吧,花括号在日常场景中出现频率较低,所以对于Paddle的通用模型,会优先将 { 识别为形状类似的、更常见的符号。

解决这个问题的方法可能是训练专门的垂类模型。比如你想用来识别代码,就用代码截图来训练模型,那样对 { } 这些代码中常见符号的识别率会更高。

本项目目前的目标是通用领域,所以暂时没有推出垂类模型的计划;有需要你可以了解一下PaddleOCR官方的 模型训练教程 。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>