Closed APeiZou closed 9 months ago
@MendelXu Hello, 论文中说的multi-fusion 代码里面如何实现呢?
@stupidZZ 您好,论文中对于Clip视觉编码输入的部分跟CLIP的预训练模型不一样,对应的positional_embedding数量需要如何改变呢?
可以看代码,fusion就是简单的映射到同一维度相加,position embedding是通过插值实现的。
@MendelXu Hello, 论文中说的multi-fusion 代码里面如何实现呢?