Closed blackjaxx closed 4 years ago
这个项目的OCR模型本质上就是一个Transformer,只是把encoder部分的word embedding替换成了ResNet18用来计算图像的特征图,另外因为车牌号码本身不像自然语言的序列那样有特定的语法规则,所以我移除了decoder部分的自注意力机制。
至于为什么这么做,本质上就是一种直觉,既然自然语言任务的输入输出序列可以用注意力机制来做对齐,那应该也能对输出序列跟输入图像的区域做对齐。前两年尝试做AI Challenger中为图像生成描述那个项目的时候就是用的类似的处理方式,只是当时用的序列模型是带注意力机制的LSTM。然后感觉带自注意力机制的Transformer应该更适合这种任务,所以这次就用了Transformer。
好,我查一下相关资料,您的回答对我非常有用,感谢!
你好我还想在提个问题,车牌识别这部分(OCR), 1.我搞不懂它的流程,对图像编码解码,是seq2seq模型吗,这里为什么要这样处理 2.ocr的模型它是如何识别车牌字符?这里的大致流程是怎样的,您可以给一些参考吗