shimopino / papers-challenge

Paper Reading List I have already read
30 stars 2 forks source link

YOLOv4: Optimal Speed and Accuracy of Object Detection #93

Open shimopino opened 4 years ago

shimopino commented 4 years ago

論文へのリンク

[arXiv:2004.10934] YOLOv4: Optimal Speed and Accuracy of Object Detection

著者・所属機関

Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao

投稿日時(YYYY-MM-DD)

2020-04-23

1. どんなもの?

image

2. 先行研究と比べてどこがすごいの?

2.1 新規性

本研究では理論的な計算速度であるBFLOPよりも製品として使用することを想定したり環境で、計算さんを並列化できる新たな物体検知モデルを提案した。

本モデルは一般的なGPU(1080tiや2080ti)を使用して学習と推論を行うことができ、上図にあるように実環境に耐えうる計算速度と高い精度を誇っている。

2.2 従来の手法

一般的な物体検知で行う計算の流れを示す。計算は大きく2つに分かれており、(1)画像から特徴量を抽出するbackboneと(2)得られた特徴量から対象の物体のクラスとBBoxを出力するheadで構成されている。

近年提案されているモデルではbacknoneとheadの間に、複数のスケールの特徴マップをトップダウンで融合させるNeckも採用されている。

これらを考慮した物体検知の大まかな内容は以下の図で表現されている。

image

2.3 Bag of freebies

物体検知では学習方法のみを変化させ、テスト時の推論時間に影響を与えることなく高い精度を得る手法を"Bag of freebies"と呼んでおり、データ増強手法などがこれに該当する。

また物体検知では学習に使用するデータセットのImBalanceも問題になる。

またBBoxに対する回帰で使用する目的関数も重要となる。

2.4 Bag of specials

物体検知ではモジュールの挿入や適した後処理を追加することで、推論時間の増大を最小限に抑えたうえで精度を向上させることができ、この技術を"Bag of specials"と呼んでいる。

受容野の統合

Attention機構を使用したチャンネルの重み付け

特徴マップの融合

活性化関数の改善

後処理で行うNMSの改善

3. 技術や手法の"キモ"はどこにある?

4. どうやって有効だと検証した?

image

5. 議論はあるか?

6. 次に読むべき論文はあるか?

論文情報・リンク

shimopino commented 4 years ago

https://github.com/AlexeyAB/darknet