yizt / crnn.pytorch

crnn实现水平和垂直方向中文文字识别, 提供在3w多个中文字符训练的水平识别和垂直识别的预训练模型; 欢迎关注,试用和反馈问题... ...
Apache License 2.0
241 stars 52 forks source link

请教*2 #20

Closed kaixinbaba closed 3 years ago

kaixinbaba commented 3 years ago

对不起我又来提问了。 image image

第二个125的公式 是经过计算的吗?就是512宽度经过卷积缩小后的 长度?还是凑巧 都是125?

另一个问题是 这个125 可以是别的数字吗?如果要改成别的数字的话 是两个地方还是要保持一致吗?(比如减少最大长度512,然后再经过计算得到一个新的值)

有这些疑问是因为 我想要把 您的pytorch实现自己通过mxnet重新实现一下,但是发现mxnet的CTCLoss的入参要求不太一样, 调了一会 不知道怎么修改,得到的loss非常奇怪,要么非常小 要么非常大 其他地方感觉差的不多,就是这个loss的应用 所以就想把您的实现搞清楚点,就碰到了上面的疑问,希望能得到您的回复 谢谢

yizt commented 3 years ago

@kaixinbaba 您好, a) crnn 网络,输入宽度512经过两个pooling,变为512/4=128; 后面经过两个2*2的pooling,但是在宽度上的步长是1,那么128需要减2,最后又有一个没有padding的卷积,再减1,128-3就变为125了。
b) 宽度可以改为其它的值,最后计算方式还是self.im_w // 4 - 3

kaixinbaba commented 3 years ago

谢谢您的耐心回复