Transformer - Githubissues

PaPaPaPatrick commented 1 year ago

将RNN中的卷积层全部变成了 multi-head 在self-attention之前使用的是lstm和GRU?

PaPaPaPatrick commented 1 year ago

在自注意力机制中，整个过程实际上是通过对输入进行编码（特征提取），编码的依据实际上是根据内部元素的相关性来的。

图像中transformer的应用 https://www.zhihu.com/question/488561011（未看，干货很多）

PaPaPaPatrick commented 1 year ago

视觉感知中的注意力机制（回顾了历史和发展公式的过程） https://zhuanlan.zhihu.com/p/565653424

PaPaPaPatrick commented 1 year ago

从Encoder-Decoder(Seq2Seq)理解Attention的本质上文所举的Encoder-Decoder框架中，因为在计算Attention的过程中，Source中的Key和Value合二为一成，指向的是同一个东西，也即输入句子中每个单词对应的语义编码hi，所以可能不容易看出这种能够体现本质思想的结构。

从本质上理解，Attention是从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上，权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息。

PaPaPaPatrick commented 1 year ago

Transformer在BEV、2D/3D检测上的应用、量化与加速！ https://mp.weixin.qq.com/s/8ZFIy0fwE2atio7Ki-2NUA

PaPaPaPatrick commented 4 weeks ago

https://www.bilibili.com/video/BV1XH4y1T76e/?spm_id_from=333.788&vd_source=6ed3d0ed0a847103a02913a24b8a9117

PaPaPaPatrick commented 4 weeks ago

自注意力机制：交叉注意力机制：

PaPaPaPatrick commented 2 weeks ago

自注意力交叉注意力及注意力机制计算的参数 1B3B的视频 https://www.bilibili.com/video/BV1TZ421j7Ke/?spm_id_from=333.880.my_history.page.click&vd_source=6ed3d0ed0a847103a02913a24b8a9117

PaPaPaPatrick / NN

Transformer #20