不好意思，想请教一下 transformer.py 当中 normlization 放前或放后具体的区别在哪里？或者说效果上会有影响吗？谢谢

MarcusNerva / HMN

[CVPR2022] Official code for Hierarchical Modular Network for Video Captioning. Our proposed HMN is implemented with PyTorch.

MIT License

52 stars 9 forks source link

Closed xyc0833 closed 1 year ago

xyc0833 commented 1 year ago

transformer.py当中有看到你的 forward函数分为两种情况。如图 forward_post 函数具体实现上正常的对应了DETR这篇论文先做多头注意力再做 add&norm 但是在 forward_pre 函数中为什么先做 norm 再做多头注意力？这样做的好处是什么？

MarcusNerva commented 1 year ago

具体本人没有做过实验，至于放在前放在后其实也是一件很玄学的事情，没有什么特别令人信服的道理