nzc / dnn_ctr

The framework to deal with ctr problem。The project contains FNN,PNN,DEEPFM, NFM etc
756 stars 285 forks source link

关于特征工程的做法 #10

Open yuqing-liu-dut opened 6 years ago

yuqing-liu-dut commented 6 years ago

您好!很荣幸看到您的代码,然而在训练我们的数据集时遇到了一些问题。 问题1:特征工程 关于特征的编码,我们比较好奇是使用什么样的方式。如果可以的话,能请您发一下对criteo数据集进行特征编码的代码或链接吗? 问题2:标签编码 在阅读代码的过程中,我发现在读取数据时,index是对应的Xi_train内容,是读取的csv中的数据。而value是1-39的标签。这让我有些费解。如果可以的话,能请您大概描述一下这么做的原因吗?或者请您简单介绍一下embed标签的csv中每一列代表的意义吗?

nzc commented 6 years ago

@yuqing-liu-dut 特征工程是参考了criteo夺冠的队伍的特征工程方案,但是没有加入他们的gbdt的叶子节点的特征,只用了原始的39个特征。而在我的代码中,针对该数据集,Xi_train存储的就是值为1的index,而value是一直都为1的,这个时候是value不是标签,是一个横为1的值。主要是考虑到了拓展性,考虑到tfidf之类方法生成数来的离散化特征是有权重的,所以弄了value这个变量作为权重。