bytedance / SPTSv2

The official implementation of SPTS v2: Single-Point Text Spotting
Apache License 2.0
124 stars 16 forks source link

关于Transformer Encoder的疑问 #21

Open ocrhei opened 5 months ago

ocrhei commented 5 months ago

请问Transformer Encoder为什么采用的是Swin Transformer而不是最原始的Transformer呢,不明白为什么要用Swin呢,毕竟ResNet最后一层的输出特征图并不大