検出トランスフォーマーのためのクロス解像度エンコーディング・デコーディング

fulfulggg commented 1 month ago

タイトル: 検出トランスフォーマーのためのクロス解像度エンコーディング・デコーディング

リンク: https://arxiv.org/abs/2410.04088

概要:

Detection Transformer (DETR) は優れた物体検出パイプラインとして知られていますが、DETR を用いた計算効率の高いマルチスケール検出は依然として課題です。本論文では、DETR が低解像度検出の速度を維持しながら高解像度検出の精度を実現することを可能にする、Cross-Resolution Encoding-Decoding (CRED) 機構を提案します。CRED は、Cross Resolution Attention Module (CRAM) と One Step Multiscale Attention (OSMA) という 2 つのモジュールに基づいています。CRAM は、低解像度エンコーダ出力の知識を高解像度特徴に転移するように設計されています。一方、OSMA は、マルチスケール特徴を 1 ステップで融合し、マルチスケール情報で強化された目的の解像度の特徴マップを生成するように設計されています。主要な DETR メソッドで使用すると、CRED は、約 50% 少ない FLOPs で、高解像度 DETR と同等の精度を実現します。具体的には、CRED を使用した最先端の DN-DETR (CRED-DETR と呼ぶ) は、MS-COCO ベンチマークにおいて 202 G FLOPs の高解像度対応物と比較して、76% 高速化し、FLOPs を約 50% 削減します。コミュニティで使用するために、事前にトレーニングされた CRED-DETR をリリースする予定です。コード: https://github.com/ashishkumar822/CRED-DETR

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

object-detection
efficient-ml
paper-implementation

fulfulggg commented 1 month ago

論文要約

論文要約: 検出トランスフォーマーのためのクロス解像度エンコーディング・デコーディング

課題: 高精度な物体検出を実現する Detection Transformer (DETR) は、高解像度画像の処理に時間がかかるという課題を抱えている。
提案: 本論文では、処理速度を維持しながら高解像度画像にも対応できる Cross-Resolution Encoding-Decoding (CRED) を提案する。
- CRED の仕組み:
  - Cross Resolution Attention Module (CRAM): 低解像度画像から得られた情報を高解像度画像処理に活用する。
  - One Step Multiscale Attention (OSMA): 複数の解像度の画像情報を効率的に統合し、よりリッチな情報を持つ特徴マップを生成する。
効果:
- CRED を従来の DETR に適用することで、高解像度画像に対応した DETR と同等の精度を維持しながら、計算量を約50%削減できる。
- 具体的には、CRED を導入した DN-DETR (CRED-DETR) は、従来の DN-DETR と比べて、MS-COCO ベンチマークにおいて処理速度が76%向上し、計算量も約50%削減された。
貢献: 本論文では、CRED-DETR のソースコードと学習済みモデルを公開する。

fulfulggg / Information-gathering