feinanshan / TDNet

Temporally Distributed Networks for Fast Video Semantic Segmentation
http://cs-people.bu.edu/pinghu/TDNet
MIT License
201 stars 45 forks source link

maxpooling问题 #7

Closed lisc199 closed 4 years ago

lisc199 commented 4 years ago

您好。我看到您代码中attention部分,maxpooling是在encoding之前做的,与论文中不太一致,会对结果有影响吗?另外maxpooling我看到您用的是kernel size=1,stride=3,这样是否可以理解为每隔两个点采样,而不是最大池化?

feinanshan commented 4 years ago

Hi! 是的,可以理解为每个一定间隔进行采样。因为window size较小所以跟采用maxpooling没有太大的性能区别。另外因为encoding里面采用的是1*1 Conv, 所以先做downsampling能够节省计算量而不会改变结果。

lisc199 commented 4 years ago

明白了,多谢~

lisc199 commented 4 years ago

还有一个问题,关于attention,我看到v的产生只用了一个1*1卷积层,而q和k都是用了conv+bn+relu+conv,包括后面attention部分,fc层也是只用了一个conv层,这有什么考虑吗

feinanshan commented 4 years ago

主要是为在main feature与(Q,K)之间加一层normalization,使之在表达上更加独立。考虑多出来的那一层只是64d 到 64d 的1*1conv,计算量很小,就没有对这一部分进行详细的实验分析。

lisc199 commented 4 years ago

明白了,感谢~