Open agatan opened 5 years ago
Object Detection の SoTA (のはず。CFENet も SoTA っぽいので両方よむと良いかも)
Object Detector でよく使われる feature pyramids は、object classification 用のネットワークを backbone にしたピラミッド型の構造しか取れない。
この論文では object detector 用にもっと良い feature pyramids を構築する方法である Multi-Level Feature Pyramid Network (MLFPN) を提案している。
SSD の architecture と組み合わせて、MS-COCO で AP 44.2 を達成している。
↑の図がわかりやすい。
object detection task では、object ごとにスケールがばらばらであるという問題がある。最近の object detector は大体 feature pyramid を作って、各層で detection をすることで対処しようとしている。
feature pyramid は確かに性能向上に寄与したが、「object classification 用のネットワークを backbone に、中間層を pyramid 型にならべる」という形でしかない。そもそも classification 用に考えられた network を流用しているので改善余地がありそうだし、単なる pyramid だと 1 つのレイヤの情報しか使えていない(or 主に 1 つ)。深いレイヤは object classification のために必要な情報をもっているはずだし、浅いレイヤは bounding box 当てに必要な情報をもっているはずなので、うまく組み合わせた feature を取り出せるような仕組みがほしい.
Feature Fusion Module (FFM), Thinned U-shape Module(TUM), Scale-wise Feature Aggregation Module (SFAM) から構成される。
↓それぞれのイメージ
Reference
Object Detection の SoTA (のはず。CFENet も SoTA っぽいので両方よむと良いかも)
Abstract
Object Detector でよく使われる feature pyramids は、object classification 用のネットワークを backbone にしたピラミッド型の構造しか取れない。
この論文では object detector 用にもっと良い feature pyramids を構築する方法である Multi-Level Feature Pyramid Network (MLFPN) を提案している。
SSD の architecture と組み合わせて、MS-COCO で AP 44.2 を達成している。
↑の図がわかりやすい。
モチベーション
object detection task では、object ごとにスケールがばらばらであるという問題がある。最近の object detector は大体 feature pyramid を作って、各層で detection をすることで対処しようとしている。
feature pyramid は確かに性能向上に寄与したが、「object classification 用のネットワークを backbone に、中間層を pyramid 型にならべる」という形でしかない。そもそも classification 用に考えられた network を流用しているので改善余地がありそうだし、単なる pyramid だと 1 つのレイヤの情報しか使えていない(or 主に 1 つ)。深いレイヤは object classification のために必要な情報をもっているはずだし、浅いレイヤは bounding box 当てに必要な情報をもっているはずなので、うまく組み合わせた feature を取り出せるような仕組みがほしい.
Architecture Overview
Feature Fusion Module (FFM), Thinned U-shape Module(TUM), Scale-wise Feature Aggregation Module (SFAM) から構成される。
↓それぞれのイメージ