thuml / Autoformer

About Code release for "Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting" (NeurIPS 2021), https://arxiv.org/abs/2106.13008
MIT License
2k stars 429 forks source link

About seq/pred lenth #106

Closed SimyokH closed 1 year ago

SimyokH commented 1 year ago

感谢作者的优秀作品Autoformer! 初次接触Autoformer,在使用Autoformer的过程中我产生了一些小的疑惑,希望可以得到作者解答: 我在自己的一项10000+的数据集的实验中采用了[seq_lenth:label_lenth:pred_lenth=96:48:24=4:2:1]的参数,并在整个测试集中均取得了很好的结果,我想请教若我扩大数据集至10W-20W+(预测目标值的波动范围不大,且变化规律接近),采取同样的比例[seq_lenth:label_lenth:pred_lenth=960:480:240]理论上是否可以取得与原[seq_lenth:label_lenth:pred_lenth=96:48:24]参数的整个测试集的优秀效果? 又或者是,我在这个10W-20W+的数据集上用[seq_lenth:label_lenth:pred_lenth=96:48:24]的参数,在完整测试集上取得了很好的效果,是不是在这个数据集上可以用[seq_lenth:label_lenth:pred_lenth=96:48:24]的结果来代表[seq_lenth:label_lenth:pred_lenth=960:480:240]的预测效果呢? 感谢!

wuhaixu2016 commented 1 year ago

您好,感谢您的关注和非常有趣的尝试! (1)第一个问题:我觉得超参数的泛化性质与数据集的分布直接相关,所以如果10000+的数据集与10W-20W+的数据集很相近,那么我觉得在更大数据集上训练的效果,应该不会比小数据集差。 (2)第二个问题:我觉得不能代表,因为seq_lenth、label_lenth、pred_lenth这三个超参数的设置的原则是不是保持固定比例,还有待商榷(我直觉认为很大可能不是)。目前我的一个原则是使得seq_len = label_lenth + pred_lenth。因为这样可以避免在decoder过程中重新填补0,以使得encoder输出与decoder输入同样长度。