Closed sysuyy closed 1 month ago
好奇CLIP 和 T5 concat 时的先后顺序是否会影响模型性能?
我们没有对concat的先后顺序做消融实验. 考虑到 CLIP 和 T5 concat 起来在 cross-attention 中去使用, 从 attention map 的层面顺序不影响结果. 另外考虑到它们的 position embedding 是相互独立的, 因此也不存在 concat 先后顺序造成的影响.
好奇CLIP 和 T5 concat 时的先后顺序是否会影响模型性能?