maxpooling问题 - Githubissues

feinanshan / TDNet

Temporally Distributed Networks for Fast Video Semantic Segmentation

http://cs-people.bu.edu/pinghu/TDNet

MIT License

201 stars 45 forks source link

Closed lisc199 closed 4 years ago

lisc199 commented 4 years ago

您好。我看到您代码中attention部分，maxpooling是在encoding之前做的，与论文中不太一致，会对结果有影响吗？另外maxpooling我看到您用的是kernel size=1，stride=3，这样是否可以理解为每隔两个点采样，而不是最大池化？

feinanshan commented 4 years ago

Hi! 是的，可以理解为每个一定间隔进行采样。因为window size较小所以跟采用maxpooling没有太大的性能区别。另外因为encoding里面采用的是1*1 Conv, 所以先做downsampling能够节省计算量而不会改变结果。

lisc199 commented 4 years ago

明白了，多谢~

lisc199 commented 4 years ago

还有一个问题，关于attention，我看到v的产生只用了一个1*1卷积层，而q和k都是用了conv+bn+relu+conv，包括后面attention部分，fc层也是只用了一个conv层，这有什么考虑吗

feinanshan commented 4 years ago

主要是为在main feature与(Q,K)之间加一层normalization，使之在表达上更加独立。考虑多出来的那一层只是64d 到 64d 的1*1conv,计算量很小，就没有对这一部分进行详细的实验分析。

lisc199 commented 4 years ago

明白了，感谢~