不定长的hist如果不进行padding是否更合适

zhougr1993 / DeepInterestNetwork

1.62k stars 558 forks source link

不定长的hist如果不进行padding是否更合适 #77

Closed DSXiangLi closed 4 years ago

DSXiangLi commented 4 years ago

因为padding本身把稀疏特征变成了dense特征，直接按不定长的hist输入后做attention是否更好呢？

zhougr1993 commented 4 years ago

padding本身的实现也是把padding部分的attention score设置为0，或者如同我们线上那样din 部分attention score计算没有softmax，padding部分的embedding是全0向量。padding本身不会影响结果。对于DIEN的实现，padding部分也是会被mask掉的。padding只是在训练构建计算图的时候把每个minibatch变成了一个规整的tensor而已，所以还是保持了不定长的hist。

DSXiangLi commented 4 years ago

明白了！感谢