hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。
MIT License
25.55k stars 2.59k forks source link

rec模型,有时 实心点句号 .会被识别成 半角逗号 , 有没有什么办法?类似的情况,还有英文大小写等。O0, Ss, Xx之类近似的 #646

Open nissansz opened 2 weeks ago

nissansz commented 2 weeks ago

Issues

Expected behavior 预期的功能

rec模型,有时实心点句号 . 会被识别成 半角逗号 , 。有没有什么办法?类似的情况,还有英文大小写等。O0, Ss, Xx之类近似的

image

image

Approximate reference (optional) 近似的参考(可选)

No response

hiroi-sora commented 2 weeks ago

rec模型,有时实心点句号 . 会被识别成 半角逗号 , 。有没有什么办法?类似的情况,还有英文大小写等。O0, Ss, Xx之类近似的

这是OCR领域的通用挑战,基本所有OCR项目都要面临类似的问题,解决的技术难度很大。

如果你的识别内容相对可控,那么可以自己后处理过滤一下识别文本,来提高质量。比如:

nissansz commented 2 weeks ago

chatgpt 3.5优化?在国内没法直接调用吧?


------------------ 原始邮件 ------------------

发件人: hiroi-sora @.***>

发送时间: 2024-09-03 17:14:33

收件人:hiroi-sora/Umi-OCR @.***>

抄送:nissanjp @.>,Author @.>

主题: Re: [hiroi-sora/Umi-OCR] rec模型,有时 实心点句号 .会被识别成 半角逗号 , 有没有什么办法?类似的情况,还有英文大小写等。O0, Ss, Xx之类近似的 (Issue #646)

rec模型,有时实心点句号 . 会被识别成 半角逗号 , 。有没有什么办法?类似的情况,还有英文大小写等。O0, Ss, Xx之类近似的

这是OCR领域的通用挑战,基本所有OCR项目都要面临类似的问题,解决的技术难度很大。

如果你的识别内容相对可控,那么可以自己后处理过滤一下识别文本,来提高质量。比如:

夹在数字中的符号替换为点 . 句首的字母s,x等字母替换为大写,句中的则小写 如果是长文章类型的内容,那么可以交给大模型优化一下,3.5级别的即可,写个脚本调API — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

hiroi-sora commented 2 weeks ago

在国内没法直接调用吧?

代理,转接,办法总是有的

nissansz commented 2 weeks ago

哪种图片resize利于ocr准确率改善?


------------------ 原始邮件 ------------------

发件人: hiroi-sora @.***>

发送时间: 2024-09-03 17:36:47

收件人:hiroi-sora/Umi-OCR @.***>

抄送:nissanjp @.>,Author @.>

主题: Re: [hiroi-sora/Umi-OCR] rec模型,有时 实心点句号 .会被识别成 半角逗号 , 有没有什么办法?类似的情况,还有英文大小写等。O0, Ss, Xx之类近似的 (Issue #646)

在国内没法直接调用吧?

代理,转接,办法总是有的

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

hiroi-sora commented 2 weeks ago

哪种图片resize利于ocr准确率改善?

一般来说默认值是与训练集类似,比较好。也可以自己试试不同值,看看哪个适合自己的情景。