HKUST-KnowComp / FMG

KDD17_FMG
138 stars 55 forks source link

关于RMSE精度的问题 #21

Closed wjlpku closed 4 years ago

wjlpku commented 5 years ago

您好,我今天用您提供的Amazon-200k的数据集和Yelp-200K的数据集时候发现了一些问题,比较困惑,不知道是我代码的问题还是您的论文中的方法的问题。我用了SVD++的方法,有global_bias, user_bias, item_bias, 其中global_bias是训练集的ratings_avg,然后发现这种方法在Yelp-200K的数据集上RMSE达到了1.1992,在Amazon_200k的数据集上RMSE达到了1.1512,特别简单的例子,我在Yelp-200K的数据集上,统计了ratings_train_1.txt中的rating的均值,然后在加上一个很小的随机数的bias,在ratings_test_1.txt中测试发现RMSE达到了1.266 想请问您,是数据集有问题吗?

hzhaoaf commented 5 years ago

@wjlpku 感谢你反馈的信息,数据集没有问题,SVD++这个工具我没有具体用过,但之前也听别人说过它的实际效果非常好,所以这个是有可能的。

你说的bias的有效性,我之前也有所发现,但我只用过global_bias。如果在加上三个bias, 能在amazon_200K上能跑出1.1512的结果,那的确是非常惊人的发现。

我们这个工作主要想验证HIN这一框架在处理side information的灵活性和有效性,以及可以进行metapath/metagraph的自动选择,所以并未在bias的处理上做太多的尝试。如果要考虑bias的影响,那么所有的方法都需要考虑,或者需要将global_bias, user_bias, item_bias去掉之后,然后再来评估「每个模型的预测能力」,而不仅仅只是SVD++考虑bias,但它也涉及到不同bias的计算以及在训练过程中的更新(实际可以选择固定bias,或者作为参数来训练)。换句话说,bias的处理本身也是一个小的「研究点」。

以一个更严格的标准来说,我们这个工作的实验设计,的确不够完美,也是我这个工作的不足,非常感谢你的问题!