Closed DSXiangLi closed 4 years ago
padding本身的实现也是把padding部分的attention score设置为0,或者如同我们线上那样din 部分attention score计算没有softmax,padding部分的embedding是全0向量。padding本身不会影响结果。 对于DIEN的实现,padding部分也是会被mask掉的。padding只是在训练构建计算图的时候把每个minibatch变成了一个规整的tensor而已,所以还是保持了不定长的hist。
明白了!感谢
因为padding本身把稀疏特征变成了dense特征,直接按不定长的hist输入后做attention是否更好呢?