yangbo1973 / CM-HGNN

GNU General Public License v2.0
4 stars 0 forks source link

数据集(类别信息) #4

Open WangZesheng12 opened 1 year ago

WangZesheng12 commented 1 year ago

同学你好!我对数据集有一点疑问,想请教一下。 文中使用三个数据集,Diginetica-Nowplaying-Tmall。三个数据集的数据统计均和 GCE-GNN 文章中相同,但是对于 tmall 和 nowplaying,在 GCE-GNN 给出的数据集中,并没有类别信息(nowplaying 中有 artist 信息,是把 artist 当作同类别吗?Tmall 数据集现在的阿里天池链接中应该不是目前会话推荐领域用到的数据集)。 而且您开源的代码中只包含处理过的含类别信息的数据集。

请问能否分享未处理过的带有类别信息的数据集? 感激不尽!

WangZesheng12 commented 1 year ago

老师/同学您好!请问可以抽空回复下吗?感激🙏

yangbo1973 commented 1 year ago

-关于原始数据集,可以参考GCE-GNN和DNCN对应论文中对数据集来源的描述进行查找,以及参考GCE-GNN和DHCN对应源码的github仓库关于数据集相关的讨论 如https://github.com/CCIIPLab/GCE-GNN/issues/3 和 https://github.com/xiaxin1998/DHCN/issues/7 -关于category信息,Tmall数据集本身是包含category这一标签的,而对于Nowplaying数据集,确实是将artist作为category标签信息的

WangZesheng12 commented 1 year ago

您好,对于 Tmall 数据集我还是有一些疑问,因为 GCE-GNN 分享的 Tmall 数据集 dataset15.csv 中没有 category信息,而https://tianchi.aliyun.com/dataset/dataDetail?dataId=42 中的数据集,并没有session id 信息,所以能否请您分享一份您使用的 Tmall 原数据集?

WangZesheng12 commented 1 year ago
截屏2022-07-27 18 39 19

如图所示,左边为阿里天池网站 Tmall 数据集,右边为 GCE-GNN 分享的 Tmall 数据集。

WangZesheng12 commented 1 year ago

阿里天池给出的数据集中,甚至没有 timestamp 信息,是用天为单位表示时间的,所以应该并不是当年比赛发布的数据集,现在大家用的一般都是右边 GCE-GNN 分享的数据集,但是并没有类别信息在。还请您分享一份您使用的 Tmall 原数据集🙏

yangbo1973 commented 1 year ago

你好,阿里天池给出的Tmall数据集与GCE-GNN所用的Tmall数据集应是同一数据集,只不过GCE-GNN所采用的'tmall/dataset15.csv'数据是已经经过初步预处理过后的数据,并不包含category信息以及其它商品侧信息; 本文所采用的数据集是综合以上两方面来源,先从原始数据集提取category信息(从阿里天池'user_log_format1.csv'数据文件中读取),然后再采用经过初步预处理后的Tmall数据集('tmall/dataset15.csv'数据文件)中的数据进行实验

WangZesheng12 commented 1 year ago

您好,感谢回复!

  1. 请问综合指的是对照 item-id 吗?但是二者的 item-id 应该不是一一对应的,可以请教综合的具体方法吗?(或者您可以开源综合代码,我自己慢慢看,不耽误您时间,🙏)
  2. 您文中 nowplaying 数据集的类别数是不是错了,应该是 11461 而不是 1146,如下图 截屏2022-07-27 22 18 36
yangbo1973 commented 1 year ago

好的,我看一下是否有统计错误; 稍后会上传一下Tmall预处理category_ID的代码

WangZesheng12 commented 1 year ago

好嘞!十分感谢!🙏