thuml / iTransformer

Official implementation for "iTransformer: Inverted Transformers Are Effective for Time Series Forecasting" (ICLR 2024 Spotlight), https://openreview.net/forum?id=JePfAI8fah
https://arxiv.org/abs/2310.06625
MIT License
1.17k stars 206 forks source link

关于变量关联分析图的问题 #87

Closed 1229308805 closed 3 weeks ago

1229308805 commented 3 months ago

您好,图7中的注意力分数图问什么取值是-1~1而不是0~1呢,据我所知,因为要保证注意力分数和为1,所以会有一个softmax操作,这样就会保证不会出现负数了。 提前感谢您的解答

WenWeiTHU commented 3 months ago

您好,注意力分数图在论文中提到使用的是pre-Softmax的值,可视化时由colorbar统一归一化到[-1,1]

1229308805 commented 3 months ago

非常感谢,这对我很有帮助!

1229308805 commented 3 months ago

还有一个问题,多头注意力会计算出多个注意力图,如何进行取舍呢? 是随机选择某个头的注意力分数矩阵,还是进行了某种融合?