eragonruan / eragonruan.github.io

1 stars 3 forks source link

论文笔记--Scene text recognition with sliding convolutional character models - 阮少辉的博客 | Slade Blog #16

Open eragonruan opened 6 years ago

eragonruan commented 6 years ago

http://slade-ruan.me/2017/12/05/STR-SCCM/

magicdream2222 commented 6 years ago

博主,我想问一下,这个中文训练出来的效果怎么样呀

eragonruan commented 6 years ago

@qq919056489 中文效果不错,英文一般般

double-vane commented 6 years ago

博主,您好,我想问一下,这里面的激活函数是每一层conv后都有吗?那dropout是加在激活函数后还是加在conv层后

eragonruan commented 6 years ago

@double-vane 对,卷积后面都有激活函数,dropout加在激活函数之后

double-vane commented 6 years ago

@eragonruan 十分感谢,对我很有帮助。那能问您一个细节问题吗?参数初始化是用的Xavier还是gaussian?

double-vane commented 6 years ago

您好,我有个疑问,论文中说自己的model很小,0.41M,这个是作者在何凯明大神1K层的ResNet上的模型大小吗?还是论文中3.2节构建的网络?还是哪个?我自己构建的3.2节的模型大小并没有那么小(caffe),是我理解有误还是我构建网络不对呢

eragonruan commented 6 years ago

@double-vane 我用的Xavier,0.41M的模型不是何凯明的残差网络,应该只是用了残差形式连接的他们自己的网络。

double-vane commented 6 years ago

@eragonruan 嗯嗯,感谢您的回复,我理解错误这个0.41M的M(兆),这个应该是百万参数的意思,谢谢您的回复!

bianlongpeng commented 6 years ago

博主,你好,请问你的github上面text-detection-ctpn源码下checkpoints/下的model从哪里下载?想复现下代码没找到额

zzzzzzrc commented 6 years ago

请问,这篇文章的思想是把一张图片按照siding window分割成多个小图,然后这组小图做batch输入cnn吗,这样看的话,整体网络的batch size=1?

eragonruan commented 6 years ago

@zzzzzzrc 对的,是把一个文本行首先分割成小图,但是实际训练的时候一次可以放多个文本行一起训练的,也就是说这个网络的batchsize不一定要是1

perrywu1989 commented 6 years ago

博主,我能加你联系方式一起讨论吗,这里我说下自己的想法,我觉得CRNN的缺点在于感受野不是自适应的,很难不住到II或者11这种连接很紧密的字符,我现在一直在CRNN上面尝试做感受野的调整,发现不同感受野差别很多,这个文章好像也存在这个问题吧?(我还没看,抱歉),因为他都是固定32by32的,我的微信chayeDD

KingfaLuis commented 4 years ago

最近也是需要研读一下这篇文章,感兴趣的读者可以加我的微信共同探讨:wxid1387784879099up