block问题 - Githubissues

rayleizhu / BiFormer

[CVPR 2023] Official code release of our paper "BiFormer: Vision Transformer with Bi-Level Routing Attention"

https://arxiv.org/abs/2303.08810

MIT License

500 stars 41 forks source link

block问题 #25

Closed Caipengzhou closed 1 year ago

Caipengzhou commented 1 year ago

作者您好，在论文中topk = 1,4,16,S^23，也就是说，在stage4用的topk=S^23，但是在BiFormer tiny代码里面的stage:4 的topk=-2，用的AttentionLePE，并不是BiLevelRoutingAttention。问题一：为什么要在stage:4用AttentionLePE呢？为什么不全部用BiLevelRoutingAttention呢？问题二：S^23有什么特殊意义吗？

rayleizhu commented 1 year ago

问题一：为什么要在stage:4用AttentionLePE呢？为什么不全部用BiLevelRoutingAttention呢？

因为最后一个stage分辨率太小(7*7), 没必要再分块了

问题二：S^23有什么特殊意义吗？