Tencent / HunyuanDiT

Hunyuan-DiT : A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding
https://dit.hunyuan.tencent.com/
Other
2.63k stars 190 forks source link

是否有对CLIP 和 T5 concat 时的先后做消融实验? #44

Closed sysuyy closed 1 month ago

sysuyy commented 1 month ago

好奇CLIP 和 T5 concat 时的先后顺序是否会影响模型性能?

Jarvis73 commented 1 month ago

我们没有对concat的先后顺序做消融实验. 考虑到 CLIP 和 T5 concat 起来在 cross-attention 中去使用, 从 attention map 的层面顺序不影响结果. 另外考虑到它们的 position embedding 是相互独立的, 因此也不存在 concat 先后顺序造成的影响.