Open Djerry-h opened 2 months ago
我很好奇在文章中的公式7和8,Q、K、V的输入特征向量不同(hi和Hi)与Transformer中直接把编码后的特征作为输入不同,这里我想知道具体的含义?以及这样做的意义?
我很好奇在文章中的公式7和8,Q、K、V的输入特征向量不同(hi和Hi)与Transformer中直接把编码后的特征作为输入不同,这里我想知道具体的含义?以及这样做的意义?