行驶证当中的0中间有一个斜杠的，无法识别0

hiroi-sora / Umi-OCR

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

MIT License

27.49k stars 2.76k forks source link

行驶证当中的0中间有一个斜杠的，无法识别0 #318

Closed 954224685 closed 10 months ago

954224685 commented 10 months ago

请参考全国统一行驶证格式，请问是否有解决办法？如上图所示

hiroi-sora commented 10 months ago

开源通用模型库，可能一般不会训练斜杠0这种较少见的情景。

非通用领域的任务需求，需要用专门的训练集来训练和微调模型。目前可用于行驶证识别的开源引擎较少，效果没有保证；因此Umi-OCR暂时不会添加该功能。

如果你有大量需求，建议使用付费的商业服务。百度、阿里云等服务商，都提供了成熟的证件识别（包括行驶证）的接口。

请参考： https://cloud.baidu.com/product/ocr_cars/vehicle_license https://help.aliyun.com/document_detail/442298.html https://developers.weixin.qq.com/miniprogram/dev/OpenApiDoc/img-ocr/ocr/vehicleLicenseOCR.html https://support.huaweicloud.com/api-ocr/ocr_03_0034.html

954224685 commented 10 months ago

通用领域的任务需求，需要用专门

感谢回复，是否有其他方式解决呢，我理解的目前的识别也是训练支持的，那是否可以单独加入这个0的训练，比如说我单独训练一下这个0，然后加资源库加到现在的系统里面？再次感谢

hiroi-sora commented 10 months ago

PaddleOCR支持自己训练/微调模型库，然后将自己的模型库导入Umi-OCR。

训练模型的要求：

拥有一些训练数据，比如一批行驶证图片及对应标签（人工识别结果）。
较好的电脑，最好拥有支持CUDA的高配显卡
有一定Python使用经验

训练步骤：

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/recognition.md https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/training.md

训练完成后，模型导入Umi的步骤：

可参考 https://github.com/hiroi-sora/Umi-OCR/issues/316#issuecomment-1890462301

另：单独训练一个0，可能效果不会太好。Paddle引擎是按行作为处理单位，而不是按单字。按照传统方式，一般是用整张图片（行驶证）做训练。

954224685 commented 10 months ago

感谢

------------------ 原始邮件 ------------------ 发件人: "hiroi-sora/Umi-OCR" @.>; 发送时间: 2024年1月15日(星期一) 下午3:33 @.>; @.**@.>; 主题: Re: [hiroi-sora/Umi-OCR] 行驶证当中的0中间有一个斜杠的，无法识别0 (Issue #318)

PaddleOCR支持自己训练/微调模型库，然后将自己的模型库导入Umi-OCR。

训练模型的要求：

拥有大量训练数据，比如一批行驶证图片及对应标签（人工识别结果）。

较好的电脑，最好拥有支持CUDA的高配显卡

有一定Python使用经验

训练步骤：

https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/recognition.md https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/doc_ch/training.md

训练完成后，模型导入Umi的步骤：

可参考 #316 (comment)

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>