After PatchTST encoder, why do permute in last two dims?

Hello, you reshape the u (bs*nvars, patch_num, d_model) before encoder,

https://github.com/yuqinie98/PatchTST/blob/b4c9f6fa7eaa5d86277d2da78026f06702cd85ad/PatchTST_supervised/layers/PatchTST_backbone.py#L164

why do permute to transform z (bs*nvars, d_model, patch_num)?

https://github.com/yuqinie98/PatchTST/blob/b4c9f6fa7eaa5d86277d2da78026f06702cd85ad/PatchTST_supervised/layers/PatchTST_backbone.py#L168-L170

In next step, z (bs*nvars, d_model, patch_num) is fed into head module, then z pass a flatten layer. Can I flatten z in the way of z(-1, patch_num, d_model) instead of (-1, d_model, patch_num) ?

https://github.com/yuqinie98/PatchTST/blob/b4c9f6fa7eaa5d86277d2da78026f06702cd85ad/PatchTST_supervised/layers/PatchTST_backbone.py#L74-L75

https://github.com/yuqinie98/PatchTST/blob/b4c9f6fa7eaa5d86277d2da78026f06702cd85ad/PatchTST_supervised/layers/PatchTST_backbone.py#L56-L57

https://github.com/yuqinie98/PatchTST/blob/b4c9f6fa7eaa5d86277d2da78026f06702cd85ad/PatchTST_supervised/layers/PatchTST_backbone.py#L120-L122

yuqinie98 / PatchTST

After PatchTST encoder, why do permute in last two dims? #31