agatan / paper-reading-notes

読んだ論文の管理とメモ置き場
5 stars 0 forks source link

M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network #12

Open agatan opened 5 years ago

agatan commented 5 years ago

Reference

Object Detection の SoTA (のはず。CFENet も SoTA っぽいので両方よむと良いかも)

image

Abstract

Object Detector でよく使われる feature pyramids は、object classification 用のネットワークを backbone にしたピラミッド型の構造しか取れない。

この論文では object detector 用にもっと良い feature pyramids を構築する方法である Multi-Level Feature Pyramid Network (MLFPN) を提案している。

SSD の architecture と組み合わせて、MS-COCO で AP 44.2 を達成している。

image

↑の図がわかりやすい。

モチベーション

object detection task では、object ごとにスケールがばらばらであるという問題がある。最近の object detector は大体 feature pyramid を作って、各層で detection をすることで対処しようとしている。

feature pyramid は確かに性能向上に寄与したが、「object classification 用のネットワークを backbone に、中間層を pyramid 型にならべる」という形でしかない。そもそも classification 用に考えられた network を流用しているので改善余地がありそうだし、単なる pyramid だと 1 つのレイヤの情報しか使えていない(or 主に 1 つ)。深いレイヤは object classification のために必要な情報をもっているはずだし、浅いレイヤは bounding box 当てに必要な情報をもっているはずなので、うまく組み合わせた feature を取り出せるような仕組みがほしい.

Architecture Overview

image

Feature Fusion Module (FFM), Thinned U-shape Module(TUM), Scale-wise Feature Aggregation Module (SFAM) から構成される。

↓それぞれのイメージ

image