Closed joezou closed 1 year ago
或者我应该在训练数据的选取上更随机些,我看现在是取时间点靠前的训练,靠后的做validate和test,一旦数据分布有bias,这个会影响train和validate的error?
这是时间序列中存在的常见问题:在应用场景中我们通常是在过去的数据上训练,然后应用到未来的场景,因此数据集的划分是按照靠前的为训练集,靠后的为测试集。但时间序列本身就有distribution shift的特性,比如全球气温上涨,那么后来的数据自然会比之前的数据的base更高。RevIN一文提出的技术有助于缓解distribution shift:Reversible Instance Normalization for Accurate Time-Series Forecasting against Distribution Shift,但还没有能完全解决这一问题的方法。
好,谢谢回答。
请问作者,我训练过程中,一直是train loss 比 valid和test loss大,这个一般是什么原因造成的,是要调整哪些超参数才能解决这个问题呢?比如input length、segment length还是其他,有没有什么建议?