YOLOv4: Optimal Speed and Accuracy of Object Detection

Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao

2020-04-23

1. どんなもの？

本研究では理論的な計算速度であるBFLOPよりも製品として使用することを想定したり環境で、計算さんを並列化できる新たな物体検知モデルを提案した。

本モデルは一般的なGPU（1080tiや2080ti）を使用して学習と推論を行うことができ、上図にあるように実環境に耐えうる計算速度と高い精度を誇っている。

一般的な物体検知で行う計算の流れを示す。計算は大きく2つに分かれており、(1)画像から特徴量を抽出するbackboneと(2)得られた特徴量から対象の物体のクラスとBBoxを出力するheadで構成されている。

近年提案されているモデルではbacknoneとheadの間に、複数のスケールの特徴マップをトップダウンで融合させるNeckも採用されている。

これらを考慮した物体検知の大まかな内容は以下の図で表現されている。

物体検知では学習方法のみを変化させ、テスト時の推論時間に影響を与えることなく高い精度を得る手法を"Bag of freebies"と呼んでおり、データ増強手法などがこれに該当する。

また物体検知では学習に使用するデータセットのImBalanceも問題になる。

またBBoxに対する回帰で使用する目的関数も重要となる。

物体検知ではモジュールの挿入や適した後処理を追加することで、推論時間の増大を最小限に抑えたうえで精度を向上させることができ、この技術を"Bag of specials"と呼んでいる。

受容野の統合

Attention機構を使用したチャンネルの重み付け

特徴マップの融合

活性化関数の改善

後処理で行うNMSの改善