zhougr1993 / DeepInterestNetwork

1.61k stars 559 forks source link

DIN model中为何没有拼接user vector #64

Open zhiweishen opened 4 years ago

JAPTRA commented 4 years ago

我也注意到了,也就是说训练的时候没有考虑user特征,用户行为数据代表了user;我觉得是避免训练的时候出现user_vec,[item_list1],next_item,y 中如果,[item_list1]不停的改变,user_vec 不变,那么最后决定y的只有next_item。拟合过程中就会出现针对一个user只有next_item起作用的搞笑情况?

zhougr1993 commented 4 years ago

其他的模型里u_emb也是被hist替换掉了。我对小数据集没有特别强的感觉和经验,生产的时候也很难用上user id的,user id单独还好维度不是很大,但是一旦样本里user id和 目标item id都存在的时候,整个样本的特征表达和区分能力就非常强,比较容易过拟合。不过是听说过有的场景用user id成功的经历,我们的数据体量也非常大了,结论就是要么过拟合要么无效,没有做过多的研究。

chouchou1988 commented 4 years ago

我也注意到了,也就是说训练的时候没有考虑user特征,用户行为数据代表了user;我觉得是避免训练的时候出现user_vec,[item_list1],next_item,y 中如果,[item_list1]不停的改变,user_vec 不变,那么最后决定y的只有next_item。拟合过程中就会出现针对一个user只有next_item起作用的搞笑情况?

不能这么理解吧,虽然不同样本user id不变,target id在变,但是不太表target id决定了label,只能说每个特征在学习和label的相关性

oliverlwang commented 3 years ago

din(hist, uid_embedding, item) 可以学到哪些hist对该用户更有价值,哪些是误点的噪声?