[ECCV2020]BorderDet: Border Feature for Dense Object Detection

yusukekyokawa commented 4 years ago

書誌情報

論文リンク

https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123460528.pdf

著者/所属機関

conf/journal

year

2020

どんな論文か？

新規性

手法

結果

Intro

SSD, RetinaNet, FCOSのような単一点特徴量は、追加の特徴抽出を行わないため、物体の定位や物体の分類に便利である。しかし、この点特徴量では、限られた受容野を持つインスタンス全体を表現するには、情報量が不足する可能性がある。また、バウンディングボックスを正確に回帰させるための物体境界の情報が不足している可能性がある。

GA-RPN [3]、RepPoints [35]、Cascade RPN [31]のように、物体の特徴表現に着目した研究や、RoIプーリング[8]、RoIAlign [10]のようなプーリングベースの手法が数多く行われてきた。図１に示すように、これらの手法は、ポイント特徴量よりも代表的な特徴量を抽出する。しかし，これらの手法を高密度物体検出のために実装することには，2つの限界がある．(1) 箱全体の中で抽出された特徴量は，不要な計算を必要とし，背景の影響を受けやすい。(2) これらの手法は、境界特徴を暗黙的に間接的に抽出する。これらの手法では、箱全体の中で特徴を判別して適応的に抽出するため、特に境界特徴の抽出は行われていない。

本研究では、各境界からプールされた境界特徴を直接利用して、元の点特徴を強化する強力な特徴抽出演算子BorderAlignを提案する。これは、図１に示すように、ボックス全体から特徴量を密に抽出する他の特徴量抽出演算子とは異なるものである。提案するBorderAlignは、物体の境界に着目し、物体の境界の代表的な部分、例えば図1(e)に示すような極端な点[38]を適応的に判別するように設計されている。

我々はBorderDetを設計し，Border Alignment Modules (BAM)を利用して分類スコアとバウンディングボックス回帰を精密化した．我々のBorderDetは，類似の特徴強調手法と比較して計算量が少なく，より高い精度を実現している．さらに，我々の手法は，アンカーの有無に関わらず，どのような密な物体検出器にも容易に組み込むことができる．

1.密な物体検出器のための特徴表現を解析し、単一点特徴表現を境界特徴で補完することの意義を示す。 2 境界特徴を用いて特徴を補完するための新しい特徴抽出演算子BorderAlignを提案する。このBorderAlignに基づいて、効率的で精度の高い物体検出器BorderDetを提案する。

我々は、COCOのデータセットに対して、ベルやホイッスル(余計なもの)を使わずに最先端の結果を達成している。我々の手法は、単段法のFCOSと2段法のFPNに対して、それぞれ2.8 AP、3.6 APの大幅な改善を達成した。我々のResNext-101-DCNベースのBorderDetは、50.3 APを達成し、既存の最先端のアプローチを凌駕しています。

Related Wors

Border Localization

オブジェクトの境界を正確に特定するために、領域やバケットの各行や列を検索する方法がいくつかある。LocNet [7]やSABL [33]は、オブジェクトの境界を特定し、各オブジェクトの境界予測のための確率を生成するために、X軸とY軸に沿ってRoI特徴マップを集約する追加のオブジェクト定位ステージを採用しています。しかし、このような境界定位パイプラインは、高解像度のRoI特徴量マップに大きく依存しているため、密な物体検出器への実装には制限があるかもしれない。本研究では、境界特徴量を効率的に利用して正確な物体定位を行うことを目的としている。

yusukekyokawa commented 4 years ago

3. Our Approach

バウンディングボックの違い

本節では、まず、スライドウィンドウ物体検出器における境界箱の特徴表現について検討する。次に，境界特徴を抽出して元の点ベースの特徴表現を強化する新しい特徴抽出器BorderAlignを提案する．このBorderAlignに基づいてBorderDetの設計を行い，境界特徴量を効率的に抽出するための仕組みについて議論する．

スライドウィンドウ物体検出器は、通常、特徴マップの密で規則的なグリッド上にバウンディングボックス予測を生成します。図２に示すように、グリッドの各点上の特徴量は、一般に、物体のカテゴリと位置を予測するために使用される。この点ベースの特徴量表現は、有効な境界特徴量を含みにくく、物体検出器の定位能力を制限する可能性がある。また、２段式の物体検出器では、図２（ｂ）に示すように、物体はバウンディングボックス全体から抽出された領域特徴量によって記述される。この領域ベースの特徴表現は、点ベースの特徴表現よりも豊富な特徴量を物体の分類や定位に与えることができる。

表1では、バウンディングボックスの特徴表現のより深い分析を提供しています。1では、バウンディングボックスの特徴表現について、より詳細な分析を行う。まず、粗いバウンディングボックス予測を生成するためのベースラインとして、単純密物体検出器(FCOS)を採用する。次に、FCOSの2番目から最後までの特徴量マップから、図2に示すような特徴量を再抽出する。次に、粗いバウンディングボックス予測値を生成するために、一点特徴量を徐々に異なる特徴量で補完していく。これらの実験の結果、以下のようなことがわかった。(1)点特徴量よりも領域特徴量の方が代表的である。単一点特徴を領域特徴で強化することで、1.3APの改善が得られることがわかった。(2)領域特徴を用いて単一点特徴を強化すると、境界特徴が領域特徴の中で大きな役割を果たす。バウンディングボックスの内側を無視して境界特徴のみを導入した場合、性能は0.3APの低下にとどまる。(3)境界特徴を効果的に抽出することで、境界特徴を密に抽出するよりもさらに性能が向上する。表1の4列目の実験では、中央の境界特徴量を抽出した方が、より効果的に境界特徴量を抽出できることがわかる。1 の実験では、中央の境界特徴は境界特徴よりも 0.3AP高く、サンプル点数の少ない領域特徴と同等の性能に達していることがわかる。

その結果、高密度物体検出器の特徴表現では、点ベースの特徴表現では、物体全体の明示的な特徴が不足しており、特徴の強化が必要となる。しかし、箱全体から特徴量を抽出することは不必要であり、冗長である。一方で，より効率的な境界特徴の抽出方法があれば，性能向上につながると考えられる．このような考え方に基づき、次節では、境界特徴の強調を利用して密な物体検出器の性能を向上させる方法を検討する。

BorderAlign

以上のように、検出性能を向上させるためには、境界線の特徴が重要であると考えられます。しかし、図1の人物のように境界線上には前景が少なく背景が多い場合が多いため、境界線上の特徴量を集中的に抽出することは効率的ではありません。そこで、本研究では、境界線の特徴を効果的に利用するために、BorderAlignと呼ばれる新しい特徴抽出器を提案します。

BorderAlignのアーキテクチャを図3に示す。RFCN [17]に触発されて、我々のBorderAlignは、(4 + 1)Cチャンネルを入力とした、ボーダーに敏感な特徴量マップIを取る。この特徴量マップの 4C チャンネルは 4 つの境界（左、上、右、下）に対応し、他の C チャンネルは図 2 に示すように元の 1 点特徴量に対応する。そして、各境界線をＮ点に均等に細分化し、これらＮ点の特徴量をｍａｘ-ｐｏｕｌｌｉｎｇで集約する。Nはプーリングサイズを示し、本論文ではデフォルトで10に設定されている。提案したBorderAlignは、境界線の極点から代表的な境界線の特徴を適応的に利用することが可能である。

yusukekyokawa commented 4 years ago

network architecture

BorderDet

実験では，単純なアンカーフリー物体検出器 FCOS をベースラインとして採用した．BorderAlign の境界抽出手順では，境界位置を入力としているため，図3に示すような2つの予測段階を採用している．ピラミッド特徴量マップを入力として，まず，粗い分類スコアと粗いバウンディングボックスの位置を予測する．次に、粗いバウンディングボックスの位置と特徴量マップをBorder Alignment Module (BAM)に入力し、明示的な境界情報を含む特徴量マップを生成します。最後に、１×１畳み込み層を適用して、境界分類スコアと境界位置を予測する。以上の2つの予測を統合して、最終的な予測値を形成する。ここで注意すべき点は、異なるカテゴリーの境界が重なっている場合に曖昧な予測を避けるために、境界分類スコアはカテゴリーを意識したものになっていることである。我々のBorderDetでは，物体分類と物体定位の両方に2つの余分な予測を採用していますが，効果的な構造とレイヤーの共有により，追加計算は無視できるほどのものではありません．さらに，提案手法はプラグアンドプレイで他の物体検出器（RetinaNet [19] や FCOS [28] など）に統合することが可能である．

Border Aliginement Module

BAM（Border Alignment Module）の構造を図 3 の緑の枠内に示す。BAM は、C チャネルを持つ特徴量マップを入力とし、続いてインスタンス正規化を行った 1×1 の畳み込み層を用いて、境界に応じた特徴量マップを出力する。境界感応特徴量マップは、各境界と単点ごとに C チャネルを持つ 5 つの特徴量マップで構成されている。したがって、出力される特徴量マップのチャンネルは、(4 + 1)Cチャンネルとなる。我々の実験では、Cは分類枝では256、回帰枝では128に設定されている。最後に、境界に敏感な特徴量マップから境界特徴を抽出するために BorderAlign モジュールを採用し、(4 + 1)C チャネルを C に戻すために 1 × 1 の畳み込み層を適用します。

Boder RPN

我々の手法は、典型的な2段検出器のためのより良い提案生成器としても機能することができる。ここでは、RPN にボーダーアライメントモジュールを追加し、新しい構造を BorderRPN と呼ぶことにする。BorderRPNのアーキテクチャを図5に示す．我々は、粗いバウンディングボックスの位置を予測するためにRPNの回帰枝を残している。RPNにおける最初の3×3畳み込みを3×3の拡張畳み込みに置き換え、有効受容場を増加させる。

yusukekyokawa commented 4 years ago

Experiments

Implementation Details

一般的な慣習に従って、我々のアブレーション実験はCOCO trainval35kセット(115K画像)で訓練され、COCO minivalセット(5K画像)で評価される。最新のアプローチと比較するために、COCOのAPをtest-devセット(20K画像)で報告する。特に指定がなければ、すべての実験でバックボーンネットワークとして、FPN付きのResNet-50を使用しています。8つのGPUを用いた同期化された確率的勾配降下(SGD)を使用しており、1ミニバッチあたり16画像(GPUあたり2画像)を90k回反復します。初期学習率は0.01で、60k回の反復と80k回の反復の後にそれぞれ10分の1に減少させています。データ増強の唯一の形態として，水平画像の反転を使用している．0.0001の重み減衰と0.9の運動量を使用している。ImageNet上で事前に学習した重みでバックボーンネットワークを初期化する。指定されない限り、入力画像の短辺が800、長辺が1333以下になるようにリサイズされる。

Ablation Study

提案したBorderDetの有効性を調べるために，ベースラインに徐々にBorder Alignment Module (BAM)を追加していく．まず，分類枝にBAMを適用していく．表2の2行目に示すように，BAMを適用することで，1.1.1倍以上の利得を得ることができた．2 に示すように，BAM は 1.1 AP の向上をもたらした．この改善は主に閾値の低いAPで発生し，IoU閾値の増加に伴って減少していく．IoU閾値が低い場合の改善は、BAMが境界特徴に応じてバウンディングボックスを再スコア化し、高い分類スコアと定位精度の両方の予測を維持することができるためである。また，IoU閾値が高い場合の性能は，高品質のバウンディングボックスの不足によって制限される．分類枝でのBAMとは対照的に、回帰枝でのBAMによる改善は、主にIoU閾値の高いAPに集中している。表2の3行目に示すように、回帰枝でのBAMでは、IoU閾値の高いAPに集中して改善が見られる。2 は、回帰ブランチで BAM を行うことで、38.6 から 39.7 へと性能が向上していることを示しています。回帰枝での BAM は、検出されたバウンディングボックスの定位精度を大幅に向上させることができ、2.6 AP90 の利得につながる。最後に，表 2 の最後の行に示すように，BAM を実装した場合には，AP90 を 2.6%向上させることができた．2 に示すように、両ブランチに BAM を実装することで、性能を 38.6 から 41.4 へとさらに向上させることができる。そして、改善はすべてのIoUしきい値（AP50からAP90まで）にわたって達成され、AP50は2.2増加し、AP90は3.5増加しました。特筆すべきは、AP90がベースラインと比較して20%向上したことです。この劇的な性能向上は，我々が提案したBorderDetの有効性を示しており，特に高いIoU閾値を持つ検出に対して有効であることを示している．

yusukekyokawa commented 4 years ago

Border Align

Pooling Size

3.2節で説明したように、BorderAlignは、まず、各境界をいくつかの点に細分化し、次に、境界の特徴を抽出するために各境界上にプールします。BorderAlignの処理中には、新たにプーリングサイズというハイパーパラメータが導入されている。ここでは、BorderAlignのプーリングサイズの違いによる検出性能の比較を行う。結果を表に示す。3. プーリングサイズが0に等しい場合、実験はバウンディングボックスを反復的に予測することと等価である。実験結果は、プーリングサイズの値が大きい範囲では、結果がロバストであることを示している。プーリングサイズを大きくすると計算量が増え、小さくすると結果が不安定になるため、プーリングサイズは10に設定しています。

Boder Sensitive Feature maps

. 3.2節で述べたような境界に敏感な特徴量マップの影響を分析するために、Cチャンネルを持つ境界にとらわれない特徴量マップにもBorderAlignを適用します。BorderAlignのすべての特徴量は、同じC特徴量マップから抽出されます。表に示すように、境界感応型特徴量マップは 4に示すように、ボーダーセンシティブ特徴量マップを適用すると、APが40.8から41.4に改善される。これは、ボーダーセンシティブ特徴マップが、異なるチャネル上の異なるボーダーの極点で高度に活性化される可能性があるため、ボーダー特徴抽出が容易になるためである。

Border feature Aggregation strategy

BorderAlignでは、各チャンネルの境界特徴を独立して境界に沿って集約するチャンネルワイズ最大集約戦略を採用している。本研究では、チャネルワイズとボーダーワイズの両方の観点から、集約戦略の影響を調べる。表5に示すように，チャネルワイズのmax-pooling戦略では，各チャネルの境界に沿った特徴量を独立して集約することが可能である．5 に示すように，チャネルワイズのmax-pooling戦略は，41.4 APという最高の性能を達成している．他の手法と比較して，提案されたチャネルワイズ最大プーリング戦略は，背景雑音を介さずに代表的な境界特徴量を抽出することができた．

Comparison with Other Feature Extraction Operators

予測バウンディングボックスと対応する特徴量のずれを緩和するために，Cascade-RPN [31] と GA-RPN [32] が提案されている．両手法とも，境界箱の特徴を抽出するために，変形畳み込み [3] や適応畳み込み [31] のような不規則な畳み込みを採用している．これらの不規則畳み込みは，暗黙的に境界特徴を抽出することも可能である．提案した BorderAlign の有効性をさらに証明するために、Border Alignment Module (BAM) (図 3) の BorderAlign と 2 番目の畳み込みを、それぞれ適応畳み込みと変形畳み込みに直接置き換えた。また、公平な比較のために、BorderDetでは、Instance Nornalization[30]を用いた1×1の畳み込みを残している。一方、BorderAlignをRoIAlignに置き換えることで、BorderAlignとRoIAlignの比較も行っている。表6に示すように、BorderAlignとRoIAlignの比較を行った結果、BorderAlignの方が、RoIAlignの方が、より高い値を示していることがわかった。6によると，BorderAlignは他の特徴抽出演算子よりも少なくとも1.0 AP以上優れていることがわかる．提案したBorderAlignは，境界の代表的な部分（極点など）に集中して，明示的かつ効率的に境界特徴を抽出することができる．逆に，箱全体から特徴量を抽出する他の演算子では，冗長な特徴量を導入してしまい，検出性能が制限されてしまう．

Border Feature Representation

BorderAlignは、特徴抽出処理が境界線上の代表的な極点を中心に行われることを保証する、境界線に沿ったチャンネルワイズの最大プーリングによって達成される。この視点を定量的な手法を用いて実証する。具体的には，まず，インスタンス・セグメンテーションのアノテーションを用いて，極点の位置（最上点，最左点，最下点，最右点）を求める．次に、図６に示すように、訓練中（５ｋ回、３０ｋ回、９０ｋ回）の各応答マップにおけるBorderAlignサンプル点から極点までの正規化された距離のカウントを算出する。正規化された距離の平均値はほぼゼロに等しい。一方，距離の分散は訓練中に徐々に減少している．これは，我々のBorderDetが適応的に学習して極点付近の特徴を抽出できることを意味している．これらの結果は，提案したBorderDetが境界特徴抽出に有効であることをさらに示している．

yusukekyokawa commented 4 years ago

Regression Performance

さらに，物体定位におけるボーダー特徴の効果を調べるために，IoUしきい値の異なるバウンディングボックスの予測数を別々にカウントした．図6はFCOSとBorderDetにおけるバウンディングボックス予測の分布を比較したものであり，バウンディングボックスの定位精度が大幅に向上していることがわかる．有効な予測ボックス数（IoU が 0.5 以上）は約 30%増加している。特に、IoUが0.9より大きいボックスの数は、ほぼ2倍になりました。この観察はまた、表に示すようにAP90の有意な改善を説明することができます。2

yusukekyokawa commented 4 years ago

Generalization of BorderDet

我々のBorderDetは，多くの一般的な物体検出器，例えばRetinaNetやFPNと容易に統合することができる．BorderDetの一般化を証明するために，まず，提案したボーダーアライメントモジュールをRetinaNetに追加する．公正な比較のために、RetinaNetの設定を一切変更することなく、各画素の９つの予測ボックスの中から最もスコアの高いものを直接選択して精錬する。表７に示すように、BorderDetは一貫してRetinaNetを2.3AP向上させることができる。また，2段方式のFPNについては，提案したBorderRPNが3.6 APの改善を得ていることが我々の実験で示されている．

Comparisons with State-of-the-art Detectors

FCOS と ResNet-101 バックボーンをベースにした BorderDet を、標準設定と先進設定の下で、表 8 の最先端の手法と比較した。標準設定は 4.1 節の設定と同じである．先進設定では，スケール{640,672,704,736,768,800}のジッタを用いて，学習反復回数を2倍の180Kとする設定を踏襲している．表 8 に最新鋭機との比較を示す。表 8 に、MS-COCO のテスト開発セットにおける最新の検出器との比較を示す。標準設定では，提案するBorderDetは43.2のAPを達成している．これは，GuidedAnchoring, FSAF, CornerNet などのアンカーフリーアプローチを凌駕するものである．高度な設定を採用することで，既存の1段方式，2段方式の中では最高レベルの50.3 APを達成している．

yusukekyokawa / paper_list