PAFNet: An Efficient Anchor-Free Object Detector Guidance

e4exp commented 3 years ago

https://arxiv.org/abs/2104.13534
2021

物体検出は、コンピュータビジョンにおける基本的かつ困難なタスクであり、様々な産業アプリケーションにおいて重要な役割を果たしています。しかし、深層学習に基づく物体検出器は、通常、より大きなストレージ要件とより長い推論時間を必要とし、その実用性を深刻に妨げています。そのため、実用的なシナリオでは、有効性と効率性の間のトレードオフが必要です。アンカーフリー検出器は、あらかじめ定義されたアンカーの制約がないため、許容できる精度と推論速度を同時に達成できると考えられる。本論文では，TTFNetと呼ばれるアンカーフリー検出器から出発し，TTFNetの構造を変更し，効果的なサーバとモバイルのソリューションをそれぞれ実現するために，既存の複数のトリックを導入します。本論文の全ての実験はPaddlePaddleに基づいて行われているので、このモデルをPAFNet(Paddle Anchor Free Network)と呼びます。サーバ側では、PAFNetは単一のV100 GPUで有効性（42.2% mAP）と効率性（67.15 FPS）のバランスをとることができました。モバイル側では、PAFNet-liteは、Kirin 990 ARM CPUにおいて、23.9%のmAPと26.00msの精度を達成し、既存の最先端のアンカーフリー検出器を大幅に上回ることができました。ソースコードはこちらのhttpsのURLにあります。

https://github.com/PaddlePaddle/PaddleDetection

e4exp commented 3 years ago

はじめに

畳み込みニューラルネットワーク（CNN）の前例のない表現能力により，物体検出器の性能は劇的に向上している[24, 19]． 28]では，既存の物体検出器は一般的にアンカーに基づいており，2ステージ法[13, 12, 39, 3]と1ステージ法[33, 36, 38, 29]に分類されている．具体的には、2ステージ法では、パイプラインに2つの主要なネットワークがあります。 1つは領域提案と呼ばれる対象物の大まかな位置を生成するためのもので，もう1つは位置を微調整して対応するカテゴリラベルを生成するためのものである．一方、ワンステージ方式は、ターゲットの位置とカテゴリーを直接予測し、End to Endの検出を実現します。ワンステージ方式は、記憶容量や推論速度の点で優れているため、ほとんどの実用的なシナリオで広く採用されています。しかし、ワンステージ方式では、あらかじめ定義されたアンカーボックスに依存しており、これがネットワークを収束させる鍵であると考えられてきました。しかし、大量のアンカーは検出器の汎化能力を阻害し、計算量とメモリ量を大幅に増加させてしまう。これらの問題を解決するために，あらかじめ定義されたアンカーを取り除き，位置を直接回帰することで，より高い効率を実現するAnchor-free検出器[18, 9, 44, 30]が提案されている．アンカーフリー検出器の中でも，TTFNet [30] の性能は，精度と効率のバランスが取れている．

本論文では，TTFNet[30]に対して，効率を犠牲にすることなく，既存の有効な戦略を適切に導入する方法を模索し，産業用途の実用的な要求を満たすサーバ側とモバイル側の検出器を獲得することを試みる。具体的には，サーバ側では，バックボーンにResNet50-vdを使用し，半教師付き学習法であるSSLDを実装して知識の抽出を行います。検出器ヘッドには、特別に設計されたアテンション・モジュール（AGS）を導入し、これがかなり効果的であることを証明しています。データ増強については、様々な増強方法の実験結果に基づき、最終的にCutMix[47]を選択します。また、1倍、4倍、10倍の学習スケジュールを試し、学習中にEMA戦略を実施します。モバイル側では，バックボーンとしてMobileNetV3-Large [16]を選択し，計算コストとメモリの削減を図っています．サーバ側と同様に、バックボーンにはSSLDを実装し、ヘッドにはライト構造を導入しています。データの増強については，CutMix [47]，GridMask [5]を実装し，PPYOLO [32]のRandom-ExpandやRandom-Cropなどの手法を参考にして，検出器の性能を向上させます．また，学習時には，1倍および20倍の学習スケジュールを試しています．実験によると，サーバ側のPAFNetモデルは，MSCOCO 2017[27]の検証セットにおいて，67.15 FPSでmAPを34.3 %から42.2 %に向上させ，一方，モバイル側のPAFNet-liteは，Kirin 990 ARM CPUにおいて，mAP 23.9 %，26.00 msという優れた精度を達成しています．このコードとモデルは、PaddleDetectionのコードベース（ https://github.com/PaddlePaddle/PaddleDetection ）で公開されています。

e4exp commented 3 years ago

結論

本論文では，アンカー・フリー検出器の新しい実装をサーバ側とモバイル側の両方で紹介した。サーバ側では，PAFNetは他の最新のアンカーフリー検出器よりも精度と速度の両方で優れています。また，PAFNet-liteのフレームワークをモバイル側に最適化しました。 PAFNetは、サーバー側とモバイル側のそれぞれにおいて、どのようなトリックが有効であるかを解明するために、多くの実験を行いました。最終的には、精度と効率のバランスが取れた便利なアンカーフリー検出器を開発しました。本論文が開発者にとって有益な実験結果と検出モデルを提供し、その結果、実用的なアプリケーションでより良い性能を達成する手助けとなることを願っています。

e4exp commented 3 years ago

e4exp / paper_manager_abstract

PAFNet: An Efficient Anchor-Free Object Detector Guidance #435