zhouhaoyi / Informer2020

The GitHub repository for the paper "Informer" accepted by AAAI 2021.
Apache License 2.0
5.27k stars 1.1k forks source link

关于decoder一次预测所有效果优于dynamic decoding的疑问 #543

Open IDP-code opened 1 year ago

IDP-code commented 1 year ago

您好,看到实验中有decoder一次预测所有效果优于dynamic decoding的结果,有一些疑问。

由于采用mask multi-attention,transformer decorder中预测时第n个数据时看到的是前n-1个的信息,训练以及测试时Informer中decorder中输入是 前label_len个历史数据+pred_len个0,那么预测第label_len+2个数据时用到的是前label_len个历史数据+(label_len+1)处数据,也就是padding的0,这样是不是有一些偏差在,因为是把(label_len+1)处数据当作0去预测的?这样做会比拿预测出的label_len+1处数据作为新的输入再预测第label_len+2个数据好吗,也就是dynamic decoding的方法。

还有一个问题是您有没有尝试过padding其他值,比如变量的均值,是尝试过后发现还是padding 0效果最好吗?