Open Huzhen757 opened 2 years ago
您好,我对您关于使用卷积来实现Self-Attention,并因此来替代CNN backbone中的bottleneck这种设计非常感兴趣,但是关于Contextual Transformer block我有一些问题,想向您请教:
基于contextual attention matrix w来attention所有的values map V得到attented feature map,为什么要是用LocalConvolution,而不是直接的矩阵乘法,这样设计的原因是什么呢,并且将contextual attention matrix进行reshape分组之后再与value map进行LocalConvolution, 这个LocalConvolution 具体是怎么实现的呢?:reshape - LocalConvolution
代码中在static key与contextual dynamic key进行fusion之后,为什么又进行了一个类似Self-Attention的操作呢?这个设计的目标又是什么呢?好像在论文中并没有提关于这里的细节:
希望可以得到您的回复,谢谢!
我想知道用卷积构建self-attention训练小规模数据集会不会像transformer一样造成负提升
您好,我对您关于使用卷积来实现Self-Attention,并因此来替代CNN backbone中的bottleneck这种设计非常感兴趣,但是关于Contextual Transformer block我有一些问题,想向您请教:
基于contextual attention matrix w来attention所有的values map V得到attented feature map,为什么要是用LocalConvolution,而不是直接的矩阵乘法,这样设计的原因是什么呢,并且将contextual attention matrix进行reshape分组之后再与value map进行LocalConvolution, 这个LocalConvolution 具体是怎么实现的呢?:reshape - LocalConvolution
代码中在static key与contextual dynamic key进行fusion之后,为什么又进行了一个类似Self-Attention的操作呢?这个设计的目标又是什么呢?好像在论文中并没有提关于这里的细节:
希望可以得到您的回复,谢谢!