Closed lartpang closed 5 years ago
推断中,在RPN和R-FCN之间计算共享的特征映射(在一个单一尺度的图像上)。然后,RPN部分提出RoI,R-FCN部分在其上评估类别分数并回归边界框。
我们的全卷积架构享有FCN广泛使用的语义分割的网络修改的好处[15,2]。特别的是,我们将ResNet-101的有效步长从32像素降低到了16像素,增加了分数图的分辨率。conv4阶段[9](stride = 16)之前和之后的所有层都保持不变;第一个conv5块中的stride=2操作被修改为stride=1,并且conv5阶段的所有卷积滤波器都被“hole algorithm”[15,2](“Algorithm atrous”[16])修改来弥补减少的步幅。为了进行公平的比较,RPN是在conv4阶段(与R-FCN共享)之上计算的,就像[9]中Faster R-CNN的情况那样,所以RPN不会受空洞行为的影响。下表显示了R-FCN的消融结果(,没有难例挖掘)。这个空洞窍门提高了2.6点的mAP。
在图3和图4中,当k × k = 3 × 3时,我们可视化R-FCN学习的位置敏感分数图。期望这些专门的分数图将在目标特定的相对位置被强烈激活。例如,“顶部中心敏感”分数图大致在目标的顶部中心位置附近呈现高分数。如果一个候选框与一个真实目标精确重叠(图3),则RoI中的大部分组块都被强烈地激活,并且他们的投票导致高分。相反,如果一个候选框与一个真实的目标没有正确的重叠(图4),那么RoI中的一些组块没有被激活,投票分数也很低。
类别特定的RPN具有67.6%(表2)的mAP,比标准Faster R-CNN的76.4%低约9个百分点。这个比较符合[6,12]中的观测结果——实际上,类别特定的RPN类似于使用密集滑动窗口作为提议的一种特殊形式的Fast R-CNN[6],如[6,12]中所报道的较差结果。
另一方面,我们的R-FCN系统具有更好的准确性(表2)。其mAP(76.6%)与标准Faster R-CNN(76.4%,表3)相当。这些结果表明,我们的位置敏感策略设法编码有用的空间信息来定位目标,而在RoI池化之后不使用任何可学习的层。
位置灵敏度的重要性通过设置k=1来进一步证明,其中R-FCN不能收敛。在这种退化的情况下,在RoI内不能显式捕获空间信息。此外,我们还报告了,如果简单Faster R-CNN的ROI池化输出分辨率为1×1,其能够收敛,但是mAP进一步下降到61.7%(表2)。
对于ResNet101删除了平均池化层和全连接层,替换为RoI池化和全卷积结构。但是这里如何同时还要先添加一个RPN结构,两者和并接到RoI池化上。
RoI池化针对一个RoI区域得到了 个特征图集合,也就是得分图,每个得分图都是针对各个类别有着多个通道,这样的话就需针对各个类别的得分图进行合并,合并策略在《可变形卷积》中已经说的很清楚了。
对分类而言,每个RoI会产生生一个(C+1)维的向量,然后对其计算整体的softmax响应,被用来在训练期间评估交叉熵损失,推断时候对RoI进行排名。
以类似的方法解决回归预测问题。除了上面的 维的卷积层,还附加一个 维度的相邻卷积层。在这组 维映射上执行位置敏感的RoI池化,为每个RoI生成一个 维的向量。然后通过平均投票聚合到4维向量中。这个4维向量将边界框参数化为 。
我们注意到为简单起见,我们执行类别不可知的边界框回归,但类别特定的对应部分(即,具有维输出层)是适用的。
RoI层之后没有可学习的层,使得区域计算几乎是零成本的,并加速训练和推断。
这里是RoI的真实标签( 表示背景)。是分类的交叉熵损失,是[6]中定义的边界框回归损失,表示真实的边界框。
是一个指标,如果参数为true,则等于1,否则为0。我们将平衡权重设置为 ,如[6]中所示。我们将正样本定义为与真实边界框重叠的交并比(IoU)至少为0.5的ROI,否则为负样本。