MarcusNerva / HMN

[CVPR2022] Official code for Hierarchical Modular Network for Video Captioning. Our proposed HMN is implemented with PyTorch.
MIT License
52 stars 9 forks source link

不好意思 ,想请教一下 transformer.py 当中 normlization 放前或放后 具体的区别在哪里?或者说效果上会有影响吗?谢谢 #18

Closed xyc0833 closed 1 year ago

xyc0833 commented 1 year ago

transformer.py当中 有看到你的 forward函数分为两种情况。如图 image forward_post 函数 具体实现上 正常的对应了DETR这篇论文 先做多头注意力再做 add&norm image 但是在 forward_pre 函数中 为什么先做 norm 再做多头注意力?这样做的好处是什么? image

MarcusNerva commented 1 year ago

具体本人没有做过实验,至于放在前放在后其实也是一件很玄学的事情,没有什么特别令人信服的道理