zhougr1993 / DeepInterestNetwork

1.62k stars 558 forks source link

不定长的hist如果不进行padding是否更合适 #77

Closed DSXiangLi closed 4 years ago

DSXiangLi commented 4 years ago

因为padding本身把稀疏特征变成了dense特征,直接按不定长的hist输入后做attention是否更好呢?

zhougr1993 commented 4 years ago

padding本身的实现也是把padding部分的attention score设置为0,或者如同我们线上那样din 部分attention score计算没有softmax,padding部分的embedding是全0向量。padding本身不会影响结果。 对于DIEN的实现,padding部分也是会被mask掉的。padding只是在训练构建计算图的时候把每个minibatch变成了一个规整的tensor而已,所以还是保持了不定长的hist。

DSXiangLi commented 4 years ago

明白了!感谢