数据集movielens有问题

chenchongthu / ENSFM

This is our implementation of ENSFM: Efficient Non-Sampling Factorization Machines (WWW 2020)

33 stars 8 forks source link

数据集movielens有问题 #2

Closed chenyifeng654 closed 4 years ago

chenyifeng654 commented 4 years ago

Movie-lens中用户的四个特征分别表示——用户ID、性别、年龄、职业；物品的两个特征分别表示——电影ID、电影流派。但是发现用户ID、性别这两组特征中有使用相同的标签(最后一个用户的ID是6040，而用户ID为1的用户的第二个特征也为6040)，理论上这是两个不同的特征域，里面的特征都是不一样的。年龄和职业两组特征中也发现有相同的标签，感觉数据处理有些问题。

chenchongthu commented 4 years ago

多谢指出这一点！我们刚才也确认了这个问题。虽然是数据上的一个疏忽，不过我们发现其实对实验结果不会有什么影响，我们把修正了上述问题的数据已经上传了。

chenyifeng654 commented 4 years ago

我在我的服务器上跑了一下，参数设置还是和原来一样，好像稍微降了一点点 0.05910596026490066 0.03621892255645931 0.09983443708609271 0.04925278096421364 0.16705298013245032 0.06610187989491143

chenchongthu commented 4 years ago

嗯嗯可以多跑几次看看，讲道理上面数据的因素对结果应该是没有影响的😆

chenchongthu commented 4 years ago

还有就是ml-1m数据集上不用跑满500个epoch的，跑到大概300轮的时候结果会更好，你可以检查一下中间输出是不是结果更好啦（之后可以考虑加一个early-stop）

chenyifeng654 commented 4 years ago

我是在中间找的最佳的答案，不知道是不是tensorflow版本问题