Closed 1229308805 closed 3 weeks ago
您好,图7中的注意力分数图问什么取值是-1~1而不是0~1呢,据我所知,因为要保证注意力分数和为1,所以会有一个softmax操作,这样就会保证不会出现负数了。 提前感谢您的解答
您好,注意力分数图在论文中提到使用的是pre-Softmax的值,可视化时由colorbar统一归一化到[-1,1]
非常感谢,这对我很有帮助!
还有一个问题,多头注意力会计算出多个注意力图,如何进行取舍呢? 是随机选择某个头的注意力分数矩阵,还是进行了某种融合?
您好,图7中的注意力分数图问什么取值是-1~1而不是0~1呢,据我所知,因为要保证注意力分数和为1,所以会有一个softmax操作,这样就会保证不会出现负数了。 提前感谢您的解答