论文-RFCN记录 - Githubissues

对于ResNet101删除了平均池化层和全连接层，替换为RoI池化和全卷积结构。但是这里如何同时还要先添加一个RPN结构，两者和并接到RoI池化上。

RoI池化针对一个RoI区域得到了 $k^2$ 个特征图集合，也就是得分图，每个得分图都是针对各个类别有着多个通道，这样的话就需针对各个类别的得分图进行合并，合并策略在《可变形卷积》中已经说的很清楚了。

对分类而言，每个RoI会产生生一个（C+1）维的向量，然后对其计算整体的softmax响应，被用来在训练期间评估交叉熵损失，推断时候对RoI进行排名。

以类似的方法解决回归预测问题。除了上面的 $k^2(C+1)$ 维的卷积层，还附加一个 $4k^2$ 维度的相邻卷积层。在这组 $4k^2$ 维映射上执行位置敏感的RoI池化，为每个RoI生成一个 $4k^2$ 维的向量。然后通过平均投票聚合到4维向量中。这个4维向量将边界框参数化为 $t=(t_x,t_y,t_w,t_h)$ 。

我们注意到为简单起见，我们执行类别不可知的边界框回归，但类别特定的对应部分（即，具有 $4k^2C$ 维输出层）是适用的。

RoI层之后没有可学习的层，使得区域计算几乎是零成本的，并加速训练和推断。

$L(s, t_{x,y,w,h}) = L_{cls}(s_{c^{*}}) + \lambda [c^{*}>0] L_{reg}(t, t^*)$

这里 $c^{*}$ 是RoI的真实标签（ $c^{*}=0$ 表示背景）。 $L_{cls}(s_{c^{*}})=-\log(s_{c^{*}})$ 是分类的交叉熵损失， $L_{reg}$ 是[6]中定义的边界框回归损失， $t^*$ 表示真实的边界框。

$[c^*>0]$ 是一个指标，如果参数为true，则等于1，否则为0。我们将平衡权重设置为 $\lambda=1$ ，如[6]中所示。我们将正样本定义为与真实边界框重叠的交并比（IoU）至少为0.5的ROI，否则为负样本。

推断中，在RPN和R-FCN之间计算共享的特征映射（在一个单一尺度的图像上）。然后，RPN部分提出RoI，R-FCN部分在其上评估类别分数并回归边界框。

我们的全卷积架构享有FCN广泛使用的语义分割的网络修改的好处[15，2]。特别的是，我们将ResNet-101的有效步长从32像素降低到了16像素，增加了分数图的分辨率。conv4阶段[9]（stride = 16）之前和之后的所有层都保持不变；第一个conv5块中的stride=2操作被修改为stride=1，并且conv5阶段的所有卷积滤波器都被“hole algorithm”[15,2]（“Algorithm atrous”[16]）修改来弥补减少的步幅。为了进行公平的比较，RPN是在conv4阶段（与R-FCN共享）之上计算的，就像[9]中Faster R-CNN的情况那样，所以RPN不会受空洞行为的影响。下表显示了R-FCN的消融结果（ $k\times k = 7\times 7$ ，没有难例挖掘）。这个空洞窍门提高了2.6点的mAP。

在图3和图4中，当k × k = 3 × 3时，我们可视化R-FCN学习的位置敏感分数图。期望这些专门的分数图将在目标特定的相对位置被强烈激活。例如，“顶部中心敏感”分数图大致在目标的顶部中心位置附近呈现高分数。如果一个候选框与一个真实目标精确重叠（图3），则RoI中的大部分 $k^2$ 组块都被强烈地激活，并且他们的投票导致高分。相反，如果一个候选框与一个真实的目标没有正确的重叠（图4），那么RoI中的一些 $k^2$ 组块没有被激活，投票分数也很低。

类别特定的RPN具有67.6%（表2）的mAP，比标准Faster R-CNN的76.4%低约9个百分点。这个比较符合[6，12]中的观测结果——实际上，类别特定的RPN类似于使用密集滑动窗口作为提议的一种特殊形式的Fast R-CNN[6]，如[6，12]中所报道的较差结果。

另一方面，我们的R-FCN系统具有更好的准确性（表2）。其mAP（76.6%）与标准Faster R-CNN（76.4%，表3）相当。这些结果表明，我们的位置敏感策略设法编码有用的空间信息来定位目标，而在RoI池化之后不使用任何可学习的层。

位置灵敏度的重要性通过设置k=1来进一步证明，其中R-FCN不能收敛。在这种退化的情况下，在RoI内不能显式捕获空间信息。此外，我们还报告了，如果简单Faster R-CNN的ROI池化输出分辨率为1×1，其能够收敛，但是mAP进一步下降到61.7%（表2）。

lartpang / Machine-Deep-Learning

论文-RFCN记录 #21