zhougr1993 / DeepInterestNetwork

1.61k stars 559 forks source link

模拟随机数据 auc 特别高0.877 #66

Open LHFCOD opened 4 years ago

LHFCOD commented 4 years ago

base_model hist item序列、uid、对应的item来自真正样本,训练第一轮1000条,auc就达到了0.88 所以我怀疑,做如下测试 1、hist item序列随机生成,uid也是随机生成,但是对应的item来自真正样本,训练第一轮1000条,auc也达到了0.88,不合理吧 image

2、hist item序列随机生成,uid也是随机生成,对应的item也随机生成,也就是样本全部随机生成,训练第一轮1000条,auc为0.51,正常 image

可以得出结论,auc只依赖item,和hist没毛关系。分析真正的item,分布很正常,算是比较均匀。 请教作者,我哪里是不是出了问题

Yanglazi commented 4 years ago

我也得到了同样的结论,模型只用item来做出预测,和hist没有关系,

XGodLike commented 4 years ago

请问这个问题是什么原因引起的?我也发现了这个问题...

我也得到了同样的结论,模型只用item来做出预测,和hist没有关系,

base_model hist item序列、uid、对应的item来自真正样本,训练第一轮1000条,auc就达到了0.88 所以我怀疑,做如下测试 1、hist item序列随机生成,uid也是随机生成,但是对应的item来自真正样本,训练第一轮1000条,auc也达到了0.88,不合理吧 image

2、hist item序列随机生成,uid也是随机生成,对应的item也随机生成,也就是样本全部随机生成,训练第一轮1000条,auc为0.51,正常 image

可以得出结论,auc只依赖item,和hist没毛关系。分析真正的item,分布很正常,算是比较均匀。 请教作者,我哪里是不是出了问题

zhougr1993 commented 4 years ago

我试了一下你们说的只输入item相关的信息 GAUC只能到0.77啊,具体你们的样本是怎么生成的?