tearsl / 12306_captcha_recognize

识别12306网页登录验证码
9 stars 3 forks source link

大神你好,求助 #2

Open kingking888 opened 5 years ago

kingking888 commented 5 years ago

大神你好,请问后面训练和使用的方法能再详细一点吗?

novioleo commented 5 years ago
  1. 训练一个embedding模型去很好的将图像进行特征向量化,例如基于imagenet训练的osnet之类的或者其他网络的最后fc那一层作为特征向量。

文本的话用这样的方法当时不管用,建议还是直接走ocr或者分类模型

  1. 使用的话,就是将待识别图像的每个子图在ANN的库中进行检索,具体库可以用faiss或hnsw或其他相关的,检索得到的图会关联一堆label,然后判定这堆label中满足当前待识别图中文字的。
cpy1989 commented 4 years ago

大神,没看到你文字识别是怎么做到的,我现在就像你说的思路: 1、先文字识别 2、再图像识别 两个对应起来了,就知道哪张图片是对的了,但是现在文字识别正确率太低,用的是pytesseract,请教下你

novioleo commented 4 years ago

@cpy1989 crnn

cpy1989 commented 4 years ago

哦,谢谢,我看看crnn,谢谢大神,非常感谢