rayleizhu / BiFormer

[CVPR 2023] Official code release of our paper "BiFormer: Vision Transformer with Bi-Level Routing Attention"
https://arxiv.org/abs/2303.08810
MIT License
461 stars 36 forks source link

关于区域划分数量 S*S 的疑问 #46

Open xyl-507 opened 3 months ago

xyl-507 commented 3 months ago

@rayleizhu 作者您好: 感谢你们的巨大贡献。 在阅读论文过程中,我有个疑问:论文和代码中SxS个划分区域是设置为7x7(以分类为例),但是根据3.3节公式9中的定义: image

因此想要得到最小的计算复杂度,以输入为224*224的分类图片来说,当 k=4 时,S应该为41.40031811187035, 而与论文设置的 7 相差太多,想请问一下为什么选择S=7?