JunnHan / MOTPapers

0 stars 1 forks source link

Deformable DETR: Deformable Transformers for End-to-End Object Detection #5

Closed JunnHan closed 3 years ago

JunnHan commented 3 years ago

Abstract

  本文针对DETR存在的问题进行分析改进,主要是考虑到1.训练时收敛速度慢,需要迭代的轮数多以及2.特征图的分辨率/空间尺寸的影响(尤其是对小目标检测性能的影响),提出了新的目标检测范式,注意力机制仅作用于目标周围的key sampling points的小集合,加快了收敛速度,并利用多尺度特征图提升了小目标检测的精度。

JunnHan commented 3 years ago

Introduction

  DETR作为首个实现端到端目标检测的框架,在设计上避免了原本许多需要人工先验知识设计的环节,例如anchor的生成、target label的分配以及NMS后处理操作等。但是其也存在着一定的问题:1.相较于现有的目标检测方法,DETR需要更长的训练轮数才能实现收敛;(在初始化阶段,注意力机制对于特征图上所有的像素都具有一致的注意权重,这就使得需要足够多的训练轮数来让注意力机制能够学习注意到稀疏的具有意义的目标区域)2.DETR在针对小目标的检测精度上表现出了相对较差的性能。(一般的目标检测方法可以通过增加特征图的分辨率来提高小目标的检测精度,但这在DETR中会带来难以接受的计算复杂度,encoder中的注意力权值计算是与像素数量成平方关系的)   本文提出可形变注意力模块,对特征图上的像素先进行筛选,使得注意力机制仅作用于一个小的采样集合,再结合上多尺度特征图的聚合,来改善DETR所存在的问题,结构示意图如下:

  此外,还讨论了一些其他的变体用于提升检测的精度,例如iterative bounding box refinement以及two-stage Deformable DETR

JunnHan commented 3 years ago

Deformable Transformers for End-to-End Object Detection

JunnHan commented 3 years ago

Additional Improvements and Variants for Deformable DETR

JunnHan commented 3 years ago

Experiment

相较于DETR的500轮,deformable detr仅用50轮就实现了较好的收敛,但是运行速度变慢了,根据实验结果看是由28FPS->19FPS