Open Azeral0619 opened 1 month ago
为什么代码里只有layer norm没有add
有吧,比如mixing末尾就有:
https://github.com/MCG-NJU/SparseBEV/blob/024778a5fb4eb98a1b72dd6e2e16b054fea87c94/models/sparsebev_transformer.py#L379
self attention也有,在multiHeadAttention的官方实现里面
为什么代码里只有layer norm没有add