rayleizhu / BiFormer

[CVPR 2023] Official code release of our paper "BiFormer: Vision Transformer with Bi-Level Routing Attention"
https://arxiv.org/abs/2303.08810
MIT License
499 stars 40 forks source link

关于论文当中公式8的求助 #24

Closed wanghua12 closed 1 year ago

wanghua12 commented 1 year ago

FLOPs的routing的2(S方)的平方*C,这个2是怎么来的,不是只有一个Ar的计算涉及到吗? 如果2可以解释,那么最后一行不应该是2的1/3次方吗?论文中写的是4/3次方。

rayleizhu commented 1 year ago

FLOPs的routing的2(S方)的平方*C,这个2是怎么来的,不是只有一个Ar的计算涉及到吗? 如果2可以解释,那么最后一行不应该是2的1/3次方吗?论文中写的是4/3次方。

  1. 还需要考虑per-row topk的复杂度(https://discuss.pytorch.org/t/whats-the-time-complexity-of-tensor-topk/117856/4)
  2. 确实应该是2^(1/3),这里是一个typo,感谢指正。不过常数项不影响最后的复杂度。