ilovin / lstm_ctc_ocr

Use CTC + tensorflow to OCR
https://ilovin.github.io/2017-04-06/tensorflow-lstm-ctc-ocr/
354 stars 140 forks source link

请问训练数据字符个数长度不一致的时候有没有什么好的训练方式? #50

Closed billyzju closed 6 years ago

billyzju commented 6 years ago

请问训练数据字符个数长度不一致的时候有没有什么好的训练方式? how to train the model if the character numbers of my training data are different?

ilovin commented 6 years ago

本来就可以不一样长直接训,但是如果差距很大的话,可以先train短的,再长的

billyzju commented 6 years ago

@ilovin 不一样长度是不是batchsize智能设为1?听说如果batchsize大于1比如64,但是每个样本的长度又不一样的话,矩阵计算不能一次性计算?

ilovin commented 6 years ago

不是,请了解一下ctc

fancyerii commented 6 years ago

CTC本来就是解决输入和输出都是变长的问题的。不过这里提前把图像都变成一样长的而已(gen.py的groupBatch把图片变成一样的大小了),实际是不需要的。

longmao-yiran commented 6 years ago

CTC本身可以解决不定长问题,但是在一个batch中由于方便计算,强制要求图片一样大,可以有不同的策略解决不定长的问题