eragonruan / text-detection-ctpn

text detection mainly based on ctpn model in tensorflow, id card detect, connectionist text proposal network
MIT License
3.43k stars 1.33k forks source link

questions from Conv5 to BLSTM #193

Open gbolin opened 6 years ago

gbolin commented 6 years ago

@eragonruan hi 有个疑问就是,得到VGG16的卷基层(Conv5)后,是怎么把数据丢入到BLSTM的? TensorFlow的实现,对这个Conv5又做了一次卷积, 而论文coffee版本实现,只用了img2col+Transpose, 这是我不能理解的。 根据我对论文的理解,是直接从Conv5截取大小为3x3xC(这里C是512)的数据 然后再做img2col+Transpose 再直接丢到BLSTM里去, 不知道你为什么要加个卷积在这里

eragonruan commented 6 years ago

@GitHubGS 对的,论文的做法是conv5直接33的滑窗的数据直接送去BLSTM。我没有实现滑窗这一部分的代码,而是用了一个33的卷积,也就是说我的滑窗的大小是11的。因此我接了一个33的卷积,保证这个11的窗口里包括conv5上33窗口的所有信息。这只是我个人的想法,没有做过精确的实验对比结果的差别