Open PaPaPaPatrick opened 1 year ago
在自注意力机制中,整个过程实际上是通过对输入进行编码(特征提取),编码的依据实际上是根据内部元素的相关性来的。
图像中transformer的应用 https://www.zhihu.com/question/488561011(未看,干货很多)
视觉感知中的注意力机制(回顾了历史和发展公式的过程) https://zhuanlan.zhihu.com/p/565653424
从Encoder-Decoder(Seq2Seq)理解Attention的本质 上文所举的Encoder-Decoder框架中,因为在计算Attention的过程中,Source中的Key和Value合二为一成,指向的是同一个东西,也即输入句子中每个单词对应的语义编码hi,所以可能不容易看出这种能够体现本质思想的结构。
从本质上理解,Attention是从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上,权重越大越聚焦于其对应的Value值上,即权重代表了信息的重要性,而Value是其对应的信息。
Transformer在BEV、2D/3D检测上的应用、量化与加速! https://mp.weixin.qq.com/s/8ZFIy0fwE2atio7Ki-2NUA
自注意力机制: 交叉注意力机制:
将RNN中的卷积层全部变成了 multi-head 在self-attention之前使用的是lstm和GRU?