Closed perfectFeng closed 11 months ago
您好,我有注意到在计算attention之前,输入X的维度为(HW, BT, C),这相当于在不同的batch和T上计算attention,为什么要这么设置呢
因为使用的是CLIP的预训练,主干分支是用的是spatial attention,每帧单独操作
您好,我有注意到在计算attention之前,输入X的维度为(HW, BT, C),这相当于在不同的batch和T上计算attention,为什么要这么设置呢