Closed Caipengzhou closed 1 year ago
作者您好,在论文中topk = 1,4,16,S^23,也就是说,在stage4用的topk=S^23,但是在BiFormer tiny代码里面的stage:4 的topk=-2,用的AttentionLePE,并不是BiLevelRoutingAttention。 问题一:为什么要在stage:4用AttentionLePE呢?为什么不全部用BiLevelRoutingAttention呢? 问题二:S^23有什么特殊意义吗?
问题一:为什么要在stage:4用AttentionLePE呢?为什么不全部用BiLevelRoutingAttention呢?
因为最后一个stage分辨率太小(7*7), 没必要再分块了
问题二:S^23有什么特殊意义吗?
作者您好,在论文中topk = 1,4,16,S^23,也就是说,在stage4用的topk=S^23,但是在BiFormer tiny代码里面的stage:4 的topk=-2,用的AttentionLePE,并不是BiLevelRoutingAttention。 问题一:为什么要在stage:4用AttentionLePE呢?为什么不全部用BiLevelRoutingAttention呢? 问题二:S^23有什么特殊意义吗?