MAZiqing / FEDformer

MIT License
625 stars 118 forks source link

关于Frequency Enhanced Attention #60

Closed linfeng-du closed 1 year ago

linfeng-du commented 1 year ago

Decoder中Frequency Enhanced Attention根据目标序列(zero-padded)和输入序列在不同频率上的振幅和相位的相似度来aggregate输入序列不同频率上的振幅和相位到目标序列的每一个频率。请问对不同频率计算振幅和相位的相似度的意义是什么呢?如果理解有误请指正。

tianzhou2011 commented 1 year ago

我其实不是很理解你问这个相似度的意思具体是想问什么,所有的attention机理都是算一种表征的相似度,然后做weighted combine, 我们选择了在频域上去做这个相似度,因为它可以提供全局信息,单点相似度无法提供。

linfeng-du commented 1 year ago

感谢回复!向量空间计算点积可以看成未归一化的余弦相似度,这个前提是我们认为这些向量都在同一组basis下。想问在频域对不同频率的振幅和相位计算相似度作为aggregate weight是否有意义?

tianzhou2011 commented 1 year ago

傅立叶basis也是一组共用的basis,这里的前提依然是大家都是用傅立叶basis,用映射到傅立叶basis的系数做相似度, 我看不出这里有任何区别。

tianzhou2011 commented 1 year ago

我们之后又发过一篇文章用Orthogonal Polynomials 做basis的:FiLM: Frequency improved Legendre Memory Model for Long-term Time Series Forecasting, 跟fourier basis 一样很多basis做projection都可以,只是这些basis是预先定义好的而已