Closed wingsyuan closed 5 years ago
如题,请问,如果将一个句子以句向量的形式表示的话,代码为什么最后还要进行mask操作呢?会不会导致丢掉句子一些信息?
最后mask的操作实际上是在做对单个字的embedding做加权平均,并用这个结果来表示句向量,的确可能会丢失一些信息
@terrifyzhao 既然这样就不用mask,直接加权平均不更好吗
如题,请问,如果将一个句子以句向量的形式表示的话,代码为什么最后还要进行mask操作呢?会不会导致丢掉句子一些信息?