courao / ocr.pytorch

A pure pytorch implemented ocr project including text detection and recognition
MIT License
583 stars 133 forks source link

CRNN #21

Closed 897486562 closed 4 years ago

897486562 commented 4 years ago

可否告知CRNN的训练数据格式

courao commented 4 years ago

https://github.com/courao/ocr.pytorch/blob/master/train_code/train_crnn/readme.md 可以看这个文件里面的描述 类似于这样的格式: data_set/my_data1/0001.jpg\t37918 data_set/my_data1/0002.jpg\tHello World! data_set/my_data1/0003.jpg\t你好

897486562 commented 4 years ago

)TW0%KD1 _~_8VB2R98}5%S image对于一张图片中截下的文本行,这样的标签是否正确呢?

courao commented 4 years ago

嗯可以的,只要是截下来的图片,对它重命名然后以 图片名1\t标签1\n 图片名2\t标签2\n 这样的格式即可

897486562 commented 4 years ago

两个字符相距距离较大时 可以按一行文本来处理吗
可否加个联系方式呢?

courao commented 4 years ago

CRNN可以处理字符距离较大的情况, 联系方式的话不太方便留,有什么问题可以在这里提问,或者有什么数据需要帮忙测试一下可以发邮箱coura@smail.nju.edu.cn

897486562 commented 4 years ago

谢谢回答,请问训练crnn时,输入的图片切片需要统一的宽和高吗?

courao commented 4 years ago

是这样的,在训练时需要一个batch里的数据长度长高比统一,所以在代码里,我会将短的图像padding成与最大值一致。 所以你在准备数据的时候可以完全不考虑这一点,代码里会处理长短不一致的情况

897486562 commented 4 years ago

谢谢

dbAIStudio commented 4 years ago

按您说的会将短的图像填充成与最大值一致、这个最大值是不是config中设置的imgH和imgW、如果我送入训练的图像大于这两个设置的值、我是不是需要改大一些?作者里面除了padding做过crop操作么

courao commented 4 years ago

imgH是固定的,imgW其实不是,这是之前的版本留下来的参数,现在的版本里其实没有所谓的imgW, 至于imgH的值现在的网络结构只能支持32大小的,如果要用更大的需要改一下网络结构,最后一个卷积层加一个纵向的averagePooling就行

dbAIStudio commented 4 years ago

非常感谢大佬的回答