DIN model中为何没有拼接user vector

zhougr1993 / DeepInterestNetwork

1.61k stars 559 forks source link

DIN model中为何没有拼接user vector #64

Open zhiweishen opened 4 years ago

JAPTRA commented 4 years ago

我也注意到了，也就是说训练的时候没有考虑user特征，用户行为数据代表了user；我觉得是避免训练的时候出现user_vec,[item_list1],next_item,y 中如果,[item_list1]不停的改变，user_vec 不变，那么最后决定y的只有next_item。拟合过程中就会出现针对一个user只有next_item起作用的搞笑情况？

zhougr1993 commented 4 years ago

其他的模型里u_emb也是被hist替换掉了。我对小数据集没有特别强的感觉和经验，生产的时候也很难用上user id的，user id单独还好维度不是很大，但是一旦样本里user id和目标item id都存在的时候，整个样本的特征表达和区分能力就非常强，比较容易过拟合。不过是听说过有的场景用user id成功的经历，我们的数据体量也非常大了，结论就是要么过拟合要么无效，没有做过多的研究。

chouchou1988 commented 4 years ago

我也注意到了，也就是说训练的时候没有考虑user特征，用户行为数据代表了user；我觉得是避免训练的时候出现user_vec,[item_list1],next_item,y 中如果,[item_list1]不停的改变，user_vec 不变，那么最后决定y的只有next_item。拟合过程中就会出现针对一个user只有next_item起作用的搞笑情况？

不能这么理解吧，虽然不同样本user id不变，target id在变，但是不太表target id决定了label，只能说每个特征在学习和label的相关性

oliverlwang commented 3 years ago

din(hist, uid_embedding, item) 可以学到哪些hist对该用户更有价值，哪些是误点的噪声？