Closed sunfan1997 closed 5 months ago
你这个场景,用 yolo 比 dbnet 应该更好。数据简单且可合成的时候,自己训模型比预训练的效果更好。
你这个场景,用 yolo 比 dbnet 应该更好。数据简单且可合成的时候,自己训模型比预训练的效果更好。
是的,检测模型用yolo效果更好,dbnet会漏检或者框不全
用yolo的话,如果文字是倾斜的,那框不是不准了 @thsno02
识别模型也只接受矩形图片吧?如果你文字倾斜的更多,你试试矫正呗。或者识别模型加上类似的数据增强,对角度鲁棒。
On Tue, Nov 14, 2023 at 10:15 wangziren1 @.***> wrote:
用yolo的话,如果文字是倾斜的,那框不是不准了 @thsno02 https://github.com/thsno02
— Reply to this email directly, view it on GitHub https://github.com/PaddlePaddle/PaddleOCR/issues/10739#issuecomment-1809434606, or unsubscribe https://github.com/notifications/unsubscribe-auth/AYWQXZFH2DVVQYRE6RZFCIDYELH35AVCNFSM6AAAAAA36DT3GSVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTQMBZGQZTINRQGY . You are receiving this because you were mentioned.Message ID: @.***>
我更倾向于矫正的方案,有啥方法吗,是先矫正身份证图片,把它转正,然后在yolo,识别。还是先yolo,矫正文本框,识别。 另外矫正这方面有啥方法,要是矫正文本框的话,用图像处理找轮廓?
我更倾向于矫正的方案,有啥方法吗,是先矫正身份证图片,把它转正,然后在yolo,识别。还是先yolo,矫正文本框,识别。 另外矫正这方面有啥方法,要是矫正文本框的话,用图像处理找轮廓?
文本图片矫正我用的是霍夫变换或者阿里有个开源的卡证矫正模型。但是多个模型叠加,整个流程准确率是相乘,会越来越低,运行时间也会增加。看你需要高准确率还是需要速度。 注:霍夫变换得到的是0或180度的图片,且有可能存在少部分图片未正确矫正的情况,需要det模型能够检测有一点角度的图片。霍夫变换的本质是直线检测,背景可能会有影响。
我更倾向于矫正的方案,有啥方法吗,是先矫正身份证图片,把它转正,然后在yolo,识别。还是先yolo,矫正文本框,识别。 另外矫正这方面有啥方法,要是矫正文本框的话,用图像处理找轮廓?
文本图片矫正我用的是霍夫变换或者阿里有个开源的卡证矫正模型。但是多个模型叠加,整个流程准确率是相乘,会越来越低,运行时间也会增加。看你需要高准确率还是需要速度。 注:霍夫变换得到的是0或180度的图片,且有可能存在少部分图片未正确矫正的情况,需要det模型能够检测有一点角度的图片。霍夫变换的本质是直线检测,背景可能会有影响。
阿里的模型链接可以发一下吗?
我更倾向于矫正的方案,有啥方法吗,是先矫正身份证图片,把它转正,然后在yolo,识别。还是先yolo,矫正文本框,识别。 另外矫正这方面有啥方法,要是矫正文本框的话,用图像处理找轮廓?
文本图片矫正我用的是霍夫变换或者阿里有个开源的卡证矫正模型。但是多个模型叠加,整个流程准确率是相乘,会越来越低,运行时间也会增加。看你需要高准确率还是需要速度。 注:霍夫变换得到的是0或180度的图片,且有可能存在少部分图片未正确矫正的情况,需要det模型能够检测有一点角度的图片。霍夫变换的本质是直线检测,背景可能会有影响。
阿里的模型链接可以发一下吗?
链接:https://modelscope.cn/models/damo/cv_resnet_carddetection_scrfd34gkps/summary 初步测试需要结合业务数据再进行微调,效果才好。
@sunfan1997 感谢回复。关于霍夫变换的方法,是对卡证的边缘进行吗,那需要先检测卡证边缘。可以具体说明一下,谢谢。
@sunfan1997 感谢回复。关于霍夫变换的方法,是对卡证的边缘进行吗,那需要先检测卡证边缘。可以具体说明一下,谢谢。
霍夫变换的本质的检测图片中的直线,再以直线为基准旋转图片到水平。 这里就存在问题,如果背景过于复杂,霍夫变换就不准确,但大部分图片都适用,我的银行卡场景,霍夫变化出错误的概率大概是千分之五。而的det模型在训练的时候,数据进行了增强,增加了部分旋转30°的图片,配合使用就没什么问题了。
1.检测模型:使用det_r50_vd_db和ch_PP-OCRv4_det_student配置文件未进行修改,使用预训练模型,使用1000张标注卡号和有效日期的数据,进行训练。hmeans50%左右,想问下如何修改。 2.识别模型:(1)使用3000张真实数据在mv3_rec预训练模型上进行训练,输出的数据位数变多(图片中是19位号码,实际输出20+位数据)。(2)使用10w张合成数据(拼接多张4位银行卡卡号图片),并使用数据增强,测试acc能够90%+,实际使用80%,很多都是错1-2位数字。 请问各位大佬,上述问题该向哪些方向优化才能提升检测和识别准确率。