Deep transformer models for time series forecasting: The influenza prevalence case

摘要

采用了基于Transformer的架构进行。通过调整自注意力机制来学习复杂的模型。可以被用于单变量预测或多变量预测。使用流感病例作为case study来验证效果。

1 Introduction

架构上采用了普通的Encoder-Decoder，只是在中间加上了注意力机制

Time Delay Embedding，可以将时间序列数据压缩到d为空间。

delay-embedding theorem存在一个时间压缩方法，使得原始状态变量能够在压缩后被唯一的还原。

4.3 Transformer Model

4.3.1 Model Architecture

Encoder，由4个相同的encoder layer组成。输入层将时间序列数据映射到d维空间，这对于multi-head机制来说是很重要的。使用sin和cos的positional encoding用来编码序列数据。每一个encoder层由两部分组成，一个自注意力机制的子层和一个前向全连接的子层。每一个子层都跟着一个正则化层。

Docoder，与原始的Transformer架构类似，同样

wtysos11 / blogWiki

Deep transformer models for time series forecasting: The influenza prevalence case #70

Deep transformer models for time series forecasting: The influenza prevalence case

摘要

1 Introduction

4.3 Transformer Model

4.3.1 Model Architecture