Closed ljcccccccccccccccccc closed 5 months ago
你好,我们上传的所有数据集(npz)都是经过数据预处理之后的。PEMS0X的三个特征分别为:
这里单纯碰巧了和原始数据都是3个。
你好,我们上传的所有数据集(npz)都是经过数据预处理之后的。PEMS0X的三个特征分别为:
- flow (LA和BAY是speed)
- time-of-day,一个0~1之间的数,代表当前时间点在一天中的哪个位置(例如0.5=中午12点)
- day-of-week,0~6的整数,代表当前时间点是周几
这里单纯碰巧了和原始数据都是3个。
相关用法:
原来是这个意思,感谢作者的详细解答及精彩工作。顺道请问下作者两个问题:
谢谢这么耐心的回复,理解又多一点点!!!我再去学习下您隔壁的内容,感谢!祝好
---原始邮件--- 发件人: "Zheng @.> 发送时间: 2024年5月30日(周四) 上午10:41 收件人: @.>; 抄送: @.**@.>; 主题: Re: [XDZhelheim/STAEformer] 关于数据集的问题 (Issue #8)
192~199行是使用方法,即如何取出处理好的数据集里的tod和dow,不是数据预处理。数据集处理的代码(如何计算tod dow的值,生成data.npz & index.npz这些文件)在我的隔壁项目。
tod和dow是不是一种embedding:我们模型里是有tod_emb和dow_emb的(Paper里3.1节第二段),就在199行后面 https://github.com/XDZhelheim/STAEformer/blob/2dfb9e35c2f04bbb7136657100ea3d8afa5fc4e5/model/STAEformer.py#L204-L213 相关定义: https://github.com/XDZhelheim/STAEformer/blob/2dfb9e35c2f04bbb7136657100ea3d8afa5fc4e5/model/STAEformer.py#L156-L159 至于tod和dow这两个特征本身的值,感觉可以看做一个加强版的positional encoding(蕴含了周期性)。
为什么能做6个数据集:跟index无关,只是程序设计。自己设计规定好数据的存储格式以及读取方法,解耦出一个独立的数据集模块,剩下的就是按规定添加新数据集,无需改动其他代码(隔壁已经让我加到17个了)。 另外,其他文章的代码也能加新数据集进去,按他们的处理脚本自己改一改适配一下就行。没有什么不能横跨的问题,就看你想不想卷了 : (
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>
好的,也祝你进展顺利 😊
十分感谢
你好 我发现你在代码中的数据集PEMS04有三个特征,与公开数据集PEMS04的三个特征(流量,速度,占有率)好像不太一样,能否说一下这三个特征是什么嘛 你的数据集显示
公开的数据集