Closed zsczszsc closed 1 week ago
您好,我这边尝试对论文进行复现,但苦于计算资源不足,所以采用GPT-2试图与论文中的结论进行对比。现有两个疑惑,烦请解答,谢谢。 请问在该图中输入的序列长度是512,还是96,因为我看后面还有一个一样的图,上面写的input-96?该图中GPT-2(12)的结果,是多次进行训练的平均值么?可否告知相关的训练超参数?
你好 这里输入长度是512,上面标示的ETTh1-96是预测长度,不是输入长度。
好的,谢谢,这里的学习率,patch dim等超参数和llama没有区别是么?
主要是发现论文中和脚本中的超参数不太一样,所以想再确认下
您好,我这边尝试对论文进行复现,但苦于计算资源不足,所以采用GPT-2试图与论文中的结论进行对比。现有两个疑惑,烦请解答,谢谢。 请问在该图中输入的序列长度是512,还是96,因为我看后面还有一个一样的图,上面写的input-96?该图中GPT-2(12)的结果,是多次进行训练的平均值么?可否告知相关的训练超参数?![image](https://github.com/KimMeen/Time-LLM/assets/27758135/7b48cf36-443e-4947-b74e-805f5c684921)