关于decoder一次预测所有效果优于dynamic decoding的疑问

您好，看到实验中有decoder一次预测所有效果优于dynamic decoding的结果，有一些疑问。

由于采用mask multi-attention，transformer decorder中预测时第n个数据时看到的是前n-1个的信息，训练以及测试时Informer中decorder中输入是前label_len个历史数据+pred_len个0，那么预测第label_len+2个数据时用到的是前label_len个历史数据+（label_len+1）处数据，也就是padding的0，这样是不是有一些偏差在，因为是把（label_len+1）处数据当作0去预测的？这样做会比拿预测出的label_len+1处数据作为新的输入再预测第label_len+2个数据好吗，也就是dynamic decoding的方法。

还有一个问题是您有没有尝试过padding其他值，比如变量的均值，是尝试过后发现还是padding 0效果最好吗？

zhouhaoyi / Informer2020

关于decoder一次预测所有效果优于dynamic decoding的疑问 #543