Open fulfulggg opened 1 month ago
Detection Transformer (DETR) は優れた物体検出パイプラインとして知られていますが、DETR を用いた計算効率の高いマルチスケール検出は依然として課題です。本論文では、DETR が低解像度検出の速度を維持しながら高解像度検出の精度を実現することを可能にする、Cross-Resolution Encoding-Decoding (CRED) 機構を提案します。CRED は、Cross Resolution Attention Module (CRAM) と One Step Multiscale Attention (OSMA) という 2 つのモジュールに基づいています。CRAM は、低解像度エンコーダ出力の知識を高解像度特徴に転移するように設計されています。一方、OSMA は、マルチスケール特徴を 1 ステップで融合し、マルチスケール情報で強化された目的の解像度の特徴マップを生成するように設計されています。主要な DETR メソッドで使用すると、CRED は、約 50% 少ない FLOPs で、高解像度 DETR と同等の精度を実現します。具体的には、CRED を使用した最先端の DN-DETR (CRED-DETR と呼ぶ) は、MS-COCO ベンチマークにおいて 202 G FLOPs の高解像度対応物と比較して、76% 高速化し、FLOPs を約 50% 削減します。コミュニティで使用するために、事前にトレーニングされた CRED-DETR をリリースする予定です。コード: https://github.com/ashishkumar822/CRED-DETR
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: 検出トランスフォーマーのためのクロス解像度エンコーディング・デコーディング
リンク: https://arxiv.org/abs/2410.04088
概要:
Detection Transformer (DETR) は優れた物体検出パイプラインとして知られていますが、DETR を用いた計算効率の高いマルチスケール検出は依然として課題です。本論文では、DETR が低解像度検出の速度を維持しながら高解像度検出の精度を実現することを可能にする、Cross-Resolution Encoding-Decoding (CRED) 機構を提案します。CRED は、Cross Resolution Attention Module (CRAM) と One Step Multiscale Attention (OSMA) という 2 つのモジュールに基づいています。CRAM は、低解像度エンコーダ出力の知識を高解像度特徴に転移するように設計されています。一方、OSMA は、マルチスケール特徴を 1 ステップで融合し、マルチスケール情報で強化された目的の解像度の特徴マップを生成するように設計されています。主要な DETR メソッドで使用すると、CRED は、約 50% 少ない FLOPs で、高解像度 DETR と同等の精度を実現します。具体的には、CRED を使用した最先端の DN-DETR (CRED-DETR と呼ぶ) は、MS-COCO ベンチマークにおいて 202 G FLOPs の高解像度対応物と比較して、76% 高速化し、FLOPs を約 50% 削減します。コミュニティで使用するために、事前にトレーニングされた CRED-DETR をリリースする予定です。コード: https://github.com/ashishkumar822/CRED-DETR