YIYIMZ / my_orc_keras_verification_code_identification

本项目实现了ocr主流算法gru/lstm+ctc+cnn架构,进行不定长度验证码识别,达到不分割字符而识别验证码内容的效果。验证码内容包含了大小字母以及数字,并增加点、线、颜色、位置、字体等干扰项。本项目对gru +ctc+cnn、lstm+ctc+cnn、cnn三种架构进行了对比,实践说明同等训练下gru/lstm+ctc+cnn架构准确率和速度均明显优于cnn架构,gru +ctc+cnn优于lstm+ctc+cnn,在实验2500个样本数据200轮训练时,gru +ctc+cnn架构在500样本测试准确率达90.2%。本项目技术能够训练长序列的ocr识别,更换数据集和相关调整,即可用于比如身份证号码、车牌、手机号、邮编等识别任务,也可用于汉字识别。
239 stars 96 forks source link

标注数据的格式可以是xxx_随机数.jpg吗 #4

Open mengpengfei opened 5 years ago

mengpengfei commented 5 years ago

标注数据的格式可以是xxx_随机数.jpg吗

YIYIMZ commented 5 years ago

文件名称就是标注,文件名称具体是什么,这个你自己确定,只要你能从文件名称中解析出标注结果。现在这个项目是 文件名称就是标注结果,如果你改了文件名称结构,那你也要改文件名称到标注结果的解析。