ZF4444 / MMAL-Net

This is a PyTorch implementation of the paper "Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual Categorization (MMAL-Net)" (Fan Zhang, Meng Li, Guisheng Zhai, Yizhao Liu).
250 stars 57 forks source link

你好!关于AOLM部分 #36

Closed IItaly closed 2 years ago

IItaly commented 2 years ago

请问: AOLM中获取左上和右下的坐标值时的*32是为什么? 以及如何避免取坐标后local_image为一条线的情况?

yunmi02 commented 2 years ago

因为特征图最后一层的特征图是1414的相较于输入图片缩小了32倍,所以通过1414特征图找到的坐标要*32倍才能还原到原图中的对应坐标。

IItaly commented 2 years ago

因为特征图最后一层的特征图是14_14的相较于输入图片缩小了32倍,所以通过14_14特征图找到的坐标要*32倍才能还原到原图中的对应坐标。

谢谢!