关于BeiBei数据集与模型性能的问题 - Githubissues

MingshiYan / CRGCN

Cascading Residual Graph Convolutional Network for Multi-Behavior Recommendation

9 stars 2 forks source link

关于BeiBei数据集与模型性能的问题 #3

Closed DuTim closed 1 year ago

DuTim commented 1 year ago

你好，非常感谢您的工作和开源代码！我对代码中存在几个疑问：

在我的观察中，Tmall 数据中 all.txt 中表示了全部的训练样本。随后将all.txt 分割为 train， valid，test。而在我获得的beibei数据集中，并没有发现验证集，这是否是正常情况？如果在原始数据集中没有验证集，我想了解一下按照怎样的规则（比例）来划分生成验证集。
我在jdata数据上进行超参数的调整，来复现您文中的实验效果。主要调整的参数为[lr, reg_weight]，但是获得的实验效果仍存在巨大的差异，我最优的实验效果如图。能否给一些建议在jdata的参数调整上，来复现您文中的实验效果。
在您的参数注册位置，存在部分没有使用的参数定义，如 node_dropout, message_dropout,在model_cascade.py中没有被使用，这两个dropout操作是否是模型的一部分？

非常感谢~~:beers::beers:

MingshiYan commented 1 year ago

你好，关于问题1，beibei数据集我发现原作者提供的数据集中validation与test是重复的，因此我就自己将train中每个用户交互的最后一个item取出构造成了validation数据集。关于问题2，如果设置（比如embedding size等等）没有出现问题的话，建议grid search中增加lr的搜索范围。关于问题3，node_dropout, message_dropout是用于提升模型泛化能力的，并不是模型的一部分。希望能够解决你的问题。