论文笔记--Scene text recognition with sliding convolutional character models - 阮少辉的博客

eragonruan / eragonruan.github.io

1 stars 3 forks source link

论文笔记--Scene text recognition with sliding convolutional character models - 阮少辉的博客 | Slade Blog #16

Open eragonruan opened 6 years ago

eragonruan commented 6 years ago

http://slade-ruan.me/2017/12/05/STR-SCCM/

magicdream2222 commented 6 years ago

博主，我想问一下，这个中文训练出来的效果怎么样呀

eragonruan commented 6 years ago

@qq919056489 中文效果不错，英文一般般

double-vane commented 6 years ago

博主，您好，我想问一下，这里面的激活函数是每一层conv后都有吗？那dropout是加在激活函数后还是加在conv层后

eragonruan commented 6 years ago

@double-vane 对，卷积后面都有激活函数，dropout加在激活函数之后

double-vane commented 6 years ago

@eragonruan 十分感谢，对我很有帮助。那能问您一个细节问题吗？参数初始化是用的Xavier还是gaussian？

double-vane commented 6 years ago

您好，我有个疑问，论文中说自己的model很小，0.41M，这个是作者在何凯明大神1K层的ResNet上的模型大小吗？还是论文中3.2节构建的网络？还是哪个？我自己构建的3.2节的模型大小并没有那么小（caffe），是我理解有误还是我构建网络不对呢

eragonruan commented 6 years ago

@double-vane 我用的Xavier，0.41M的模型不是何凯明的残差网络，应该只是用了残差形式连接的他们自己的网络。

double-vane commented 6 years ago

@eragonruan 嗯嗯，感谢您的回复，我理解错误这个0.41M的M(兆),这个应该是百万参数的意思，谢谢您的回复！

bianlongpeng commented 6 years ago

博主，你好，请问你的github上面text-detection-ctpn源码下checkpoints/下的model从哪里下载？想复现下代码没找到额

zzzzzzrc commented 6 years ago

请问，这篇文章的思想是把一张图片按照siding window分割成多个小图，然后这组小图做batch输入cnn吗，这样看的话，整体网络的batch size=1？

eragonruan commented 6 years ago

@zzzzzzrc 对的，是把一个文本行首先分割成小图，但是实际训练的时候一次可以放多个文本行一起训练的，也就是说这个网络的batchsize不一定要是1

perrywu1989 commented 6 years ago

博主，我能加你联系方式一起讨论吗，这里我说下自己的想法，我觉得CRNN的缺点在于感受野不是自适应的，很难不住到II或者11这种连接很紧密的字符，我现在一直在CRNN上面尝试做感受野的调整，发现不同感受野差别很多，这个文章好像也存在这个问题吧？（我还没看，抱歉），因为他都是固定32by32的，我的微信chayeDD

KingfaLuis commented 4 years ago

最近也是需要研读一下这篇文章，感兴趣的读者可以加我的微信共同探讨：wxid1387784879099up