Open Dingxiangtao opened 1 week ago
前辈你好,在您的论文中有关于字幕生成过程中对关注的图像区域进行可视化的图像,请问是如何实现的?
推理的时候,解码器的cross-attention的attention map, 归一化权重就对应每个单词在视觉区域的关注程度,叠加到原图就行了
不好意思前辈,我还是不太明白。这个attention map是怎么得到的?
不好意思前辈,我还是不太明白。这个attention map是怎么得到的?
建议你查一下百度或者知乎深入理解下self-attention的公式。attention map 就是soft(QK^T)之后的结果,cross-attention的attention map就是单词在每个视觉区域的归一化权重。
多谢前辈回复。您说的这个我知道,我想问的是怎么从三层编码器中获取到最终层注意力权重并拿来可视化到原图上,我问的可能还是有问题。应该是取最后一层的权重吧
三个attention map取平均
---- 回复的原邮件 ---- | 发件人 | @.> | | 发送日期 | 2024年11月18日 21:54 | | 收件人 | @.> | | 抄送人 | One-paper-luck @.>, Comment @.> | | 主题 | Re: [One-paper-luck/MG-Transformer] 热力图 (Issue #4) |
多谢前辈回复。您说的这个我知道,我想问的是怎么从三层编码器中获取到最终层注意力权重并拿来可视化到原图上,我问的可能还是有问题。应该是取最后一层的权重吧
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
前辈,这是我整出来的注意力热力图,为什么会是这样的一个结果呢?输出的字幕跟真值一样啊。我按单词输出热力图也是都集中再下面
前辈你好,在您的论文中有关于字幕生成过程中对关注的图像区域进行可视化的图像,请问是如何实现的?