DETReg: Unsupervised Pretraining with Region Priors for Object Detection

https://arxiv.org/abs/2106.04550
2021

近年，教師なしの事前学習は，物体の検出をはじめとするコンピュータビジョンのタスクに有効であることがわかっている．しかし、これまでの教師なしのアプローチは、オブジェクトのローカライズという検出の重要な側面を扱うように設計されていません。ここでは、領域プライアを用いたTRansformersによる物体検出のための、教師なしの事前トレーニング手法であるDETRegを紹介します。物体検出の基礎となる2つのタスク、すなわちローカライゼーションとカテゴライズに基づいて、我々は2つの相補的な信号を組み合わせて自己教師化を行う。物体の定位信号には、既製の教師なし領域提案法であるSelective Searchから得られる擬似的なグランドトゥルースの物体境界ボックスを使用する。カテゴリー化信号は、不変的なオブジェクト表現を促進するオブジェクト埋め込み損失から得られ、そこからオブジェクトのカテゴリーを推測することができる。この2つの信号を組み合わせて、大量のラベルなしデータから変形可能なDETR検出アーキテクチャを学習する方法を示します。 DETRegは、MS COCOやPASCAL VOCなどの標準的なベンチマークにおいて、競合するベースラインや従来の自己教師型手法よりも性能を向上させています。またDETRegは、MS COCOにおいてラベル付きデータの1%、2%、5%、10%のみで学習した場合、従来の教師付きおよび教師なしのベースライン手法を低データ領域で凌駕しています。コードと事前学習済みモデルについては、以下のhttps URLのプロジェクトページをご覧ください。

https://amirbar.net/detreg

1 はじめに

物体検出は，マシンビジョンにおける重要なタスクであり，画像内の物体の位置を特定するとともに，物体をカテゴリーに分類することも含まれる．高い検出精度を得るためには，大規模なデータセットを用いてモデルを学習する必要があります．しかし，このようなデータセットは，画像ごとに複数のバウンディングボックスを手動でアノテーションする必要があるため，収集に費用がかかります。一方，ラベルのない画像は収集が容易で，手動のアノテーションも必要ありません。近年，ラベル付きデータの必要性を大幅に減らすことができる，自己教師付き表現の学習が注目されている[24, 6, 23, 9]．このような自己教師付き表現は，ImageNet[13]のような大規模データセットの事前学習段階で学習され，物体検出を含む様々な知覚タスク[8]の性能を向上させ，教師付きの事前学習の相手よりも優れていることさえある．このような最近の進歩にもかかわらず，現在のアプローチは，物体を検出するための学習に焦点を当てていないため，物体検出のための優れた表現を学習する能力に限界があると我々は主張する．

ほとんどの過去の作品（例えば、MoCo [24]やSwAV [6]）は、検出アーキテクチャの一部のみを学習することに焦点を当てており、それは通常、検出器のサブネットワーク（例えば、ResNet [26]のような畳み込みネットワーク）です。検出モデルが成功するためには、バックボーンを単独で学習するだけでは十分ではありません。最近のUP-DETR[12]では、完全な検出アーキテクチャを学習していますが、画像内のランダムなパッチの検出を学習しているため、実際の物体の検出には向いていません。この問題に対する我々のアプローチは異なっており、優れた検出器を学習するには、事前学習の段階で物体を検出することを学ぶ必要があるという観察に基づいている。

これを実現するために、我々は「DEtection with TRansformers based on Region priors」（DETReg）と呼ばれる新しいフレームワークを提案します。 DETRegは、2つの重要な事前学習タスクを導入することで、ラベルのないデータに対する検出器の学習に使用することができます。「オブジェクト・ローカライゼーション・タスク "と "オブジェクト・エンベッディング・タスク "です。 1つ目の目的は、カテゴリーに関係なく、オブジェクトをローカライズするモデルを学習することです。しかし、オブジェクトのローカライズを学習するだけでは十分ではなく、検出器はオブジェクトを分類する必要があります。そこで、画像中の物体のカテゴリを理解することを目的とした「物体埋め込みタスク」を導入しました。オブジェクト検出のための最近の変換器[4, 59]のシンプルさにヒントを得て、我々のアプローチはDeformable DETR[59]アーキテクチャをベースにしています。しかし、ラベルのないデータからオブジェクトのローカライズを学習するにはどうすればよいのでしょうか？

幸いなことに、マシンビジョン・コミュニティは領域提案の問題に幅広く取り組んでおり、選択的探索（Selective Search）[47]のような効果的な手法があり、カテゴリーにとらわれない領域提案を、高い再現性で、既製品で、学習の必要なく作成することができます。選択的探索の重要なアイデアは、オブジェクトが特定の構造的特性（連続性、階層性、エッジ）を示すことであり、かなり単純なプログラム（つまり、訓練を受けていない）手順で、これらの手掛かりを活用してオブジェクト提案を抽出することができる。ここでは、これらの古典的なアルゴリズムが、検出器の教師なし学習に効果的に使用できることを示しています。同様に、我々の「物体埋め込みタスク」は、ラベルのないデータから視覚的な表現を学習する自己教師付き手法の近年の成功に基づいています[6, 8, 10]。これらの手法では，平行移動や軽度の切り抜きなど，物体のカテゴリを維持する変換に影響されない視覚表現の学習を促すことが重要なアイデアとなっている．我々はそのような手法の一つであるSwAV [6]を用いて、潜在的なオブジェクトの埋め込みを取得し、それをDETRegのオブジェクト埋め込みの事前学習時のスーパーバイズに用います。 DETRegは上記の2つのタスクに対して、手動でアノテーションされたバウンディングボックスやカテゴリーを一切使用せずにトレーニングを行う。このアプローチの主な利点は、DETRの全てのモデル・パラメータをトレーニングすることで、スーパーバイズがなくても意味のある検出を行うことができるようになることである（図1参照）。

我々は標準的なベンチマークを用いてDETRegを徹底的に評価しました。標準的なベンチマークであるMS COCO [35]とPASCAL VOC [16]において、"低データ "トレーニングレジームを含む様々な設定でDETRegの広範な評価を行いました。その結果、DETRegは全般的に、特に少量のアノテーションデータが利用可能な場合に、チャレンジングなベースラインよりも向上することが分かりました。例えば、DETRegはPASCAL VOCではAPで4ポイント、MS COCOでは1.6ポイント、supervised pretrainedのDeformable DETRよりも向上しています。また、データの1%のみを使用した場合でも、教師付きのDETRよりもAPで11ポイント以上向上しています。さらに，SwAVで初期化したDeformable DETRに対して，PASCAL VOCではAPで2.5ポイント，MS COCOでは0.3ポイントの改善が見られました．また，「MS COCO」では，アノテーションされたデータを1%と2%だけ使用した場合に，APで5.7ポイントと5.8ポイントの改善が見られた．これらの結果から、DETRegは物体検出器モデルの事前学習に非常に有効なアプローチであることが示唆されました。

3 選択的探索による領域提案

物体検出のモデルを学習するには、物体の位置を学習する必要があります。これを達成するために、我々は古典的な領域提案アプローチに頼っている。具体的には，選択的探索（Selective Search）アルゴリズム[47]を用いる．選択的探索の目的は，画像中に物体を含む候補領域を提案することである．これらの領域は，類似性と隣接性に基づいて，より小さな領域を階層的にグループ化する反復プロセスによって得られます．このアルゴリズムは，完全にプログラム化されており，トレーニングを必要とせず，OpenCVパイソンライブラリを用いて「すぐに」利用できます[3]．さらに，物体の複数の属性を捉えることができ，「物体らしさ」の優れた事前情報として機能する．次に，「選択的探索」の手順を簡単に説明し，どのような情報を取得するのかを明らかにします．画像が与えられると，グラフベースのセグメンテーションアルゴリズム [17] を用いて，初期の画像領域 R = {r1, ..., rn} を提案する．これらの領域は，スーパーピクセルの反復的なグルーピング処理の結果であり，隣接する要素は，他の隣接する成分との類似性と比較して，境界を越えた類似性に基づいてグループ化される． Sを、ある類似性関数sに従った、隣接する領域のペアワイズの領域類似性の集合とします。各反復において、ri , rj∈Rを、s(ri , rj ) = max(S)となる2つの領域とします。これらの2つの領域は、新しい領域rt = ri∪rjに結合され、領域の集合Rに追加されます：R = R∪ {rt}。 ri , rj を含む古い類似性は削除され、rt とその近傍領域に関する新しい類似性が追加されます。出力ボックスの順位は、生成された順番に基づいて決定されますが、結果をより多様にするために多少のランダム性があります。リージョンを正しくグループ化するためには、リージョンの類似性関数sは、オブジェクトを構成する可能性の高いリージョンのペアに高いスコアを、そうでないものに低いスコアを割り当てる必要があります。このためには、いくつかの「物体性」の仮定が必要です。これは次のように定義されます。

ここで，scolor, stextureはSIFTのような特徴を用いてカラーヒストグラムとテクスチャヒストグラムの類似性を測定し，ssizeはriとrjが共同で占める画像の割合であり，sf illはこれら2つの領域の形状がどの程度フィットしているかをスコア化したものである（例えば，合併すると穴が埋まりそうな場合はフィットしており，ほとんど触れていない場合はフィットしていない）．

4 境界ボックス提案の選択

3節で述べたように、選択検索アルゴリズムは、オブジェクトである可能性が高いものが最初に表示されるように領域提案をソートしようとする。しかし、領域提案の数は多く、その順位は正確ではありません。そこで、学習時に提案として使用する最適なものを選択するメカニズムが必要となる（下記セクション5参照）。我々は、ボックスを選択するために、以下の3つの方針を考える。 Top-k、Random-k、Importance Samplingである。

Top-k。

Selective Searchアルゴリズムによって決定されたオブジェクトのランキングに従う。具体的には、早くグループ化された領域は、オブジェクトである可能性が高いものとしてランク付けされる。上位K個のオブジェクトをDETReg（セクション5参照）の入力として選択します。

ランダム-K。

Selective Searchによって生成された提案の全リストからK個の候補をランダムに選択する。これにより、質の低い候補が得られますが、探索を促進します。

インポータンス・サンプリング（Importance Sampling）。

このアプローチでは、Selective Searchのランキングに頼るだけでなく、ランキングの低い、より多様な提案を利用することを目的としています。より正式には，b1, ... ... , bn を n 個の提案の集合とする． b1, ... , bnを、選択検索アルゴリズムによって計算されたn個のソートされたリージョン提案のセットとし、biのランクをiとする。そして，Xiのサンプリング確率を次のように割り当てる．

あるボックスが含まれるべきかどうかを判断するために、それぞれの分布からランダムにサンプルを抽出します。

5 領域プリオールを用いたDETRegモデル

次に、本稿で扱う重要な課題である、エンド・ツー・エンド検出モデルの事前トレーニングにラベル無しデータをどのように利用するかについて説明する。我々のアプローチでは、ラベルのないデータを使ってDETRの前処理タスク（プレテキストタスク）を生成します。プレテキストタスクでモデルが成功すれば、オブジェクト検出タスクにうまく移行できるように、このタスクをオブジェクト検出に可能な限り近づけるように設計するのが主なアイデアです。具体的には，事前に学習させた検出器が，物体をどのようにローカライズするかと，物体の優れた埋め込みをどのように学習するかの両方を理解することを目標としています．全体的なアプローチを図2に示します。

検出アーキテクチャとしてDeformable-DETR [59]を使用していますが，他のアーキテクチャを使用することも可能です． DETRは画像内の最大N個のオブジェクトを検出しますが、これはデコーダのN個のオブジェクトクエリベクトルと入力画像の特徴に対して、アテンション層とフィードフォワード層を反復的に適用することで行われます。デコーダの最後の層では、N個の画像に依存したクエリエンベッディングが生成され、バウンディングボックスの座標とオブジェクトカテゴリの予測に使用されます。形式的には、入力画像x∈R H×W×3を考えます。 DETRはxを用いて、vi∈R×W×3のN個の画像依存のクエリエンベッディングv1, ... ... , vNを計算します。, vN with vi∈R d (これは、画像をバックボーンに通した後、変換器を経て、クエリベクターを処理することで行われます。詳細は[4]を参照してください）。) 次に，2つの予測ヘッドがviに適用されます． 1つ目は，fbox : R d → R 4 で，バウンディングボックスを予測します．もう一つは，fcat : R d → R L であり，背景の「物体なし」カテゴリを含む，L個の物体カテゴリに対する分布を出力する．教師なしの事前学習では，カテゴリラベルを使用しないため，fcat予測ヘッドは，オブジェクトと背景の2つの出力しか持ちません．この2つの予測ヘッドはMLPで実装されており、微調整段階（ラベル付きターゲットデータセットで学習する場合）では、fcatの最後の層を削除して、新しい完全連結層に置き換え、ターゲットデータセットのカテゴリ数に応じて出力数を設定します。我々の目的は、事前学習された検出器がオブジェクトをローカライズすることと、オブジェクトの視覚的特徴とカテゴリを理想的に捉えるオブジェクトの優れた埋め込みを学習することの両方を達成することである。そこで，以下のような2つの事前学習タスクを用意しました．

オブジェクトのローカライズタスク

オブジェクトの検出をモデルに教えるためには、理想的には、オブジェクトを含むボックスを与える必要があります。ここでの重要な洞察は、これがまさに選択的探索ができることです。つまり、選択的探索は、画像を取り込んで、高い再現率で大規模な領域提案のセットを作成することができます。しかし、選択的探索は精度が非常に低く、カテゴリ情報も出力しません（選択的探索と他の領域提案手法の広範な評価については[29, 28]を参照）。そこで、「物体のローカライズ」の事前学習タスクでは、M個のボックスb1, ... ... , bM (ここで、bi∈i)のセットを受け取ります。（これらのボックスの選択方法についてはセクション4を参照）、DETR予測（すなわち、上記のネットワークfboxの出力）とこれらM個のボックスとの差を最小化する損失を最適化します。 DETRの場合と同様に、損失には、後述するように、予測されたボックスとbiのマッチングが含まれる。なお、Selective Searchのボックスのほとんどが実際のオブジェクトを含まないことは明らかである。しかし、オブジェクトではないボックスの内容は、オブジェクトのボックスに比べて変化しやすいため、Selective Searchのように非常にノイズの多いオブジェクトネスラベルが与えられた場合でも、オブジェクトネスを認識できるようにディープモデルを学習できると考えられます。我々の実証結果は、この直感を支持しています。実際、DETRegは物体を認識しない検出においてSelective Searchよりも優れており、DETRegが間違った例を無視することができたことを示唆しています。

オブジェクト埋め込みタスク

DETRの標準的な教師付き学習スキームでは、クエリ埋め込みviは、予測ヘッドfcatを介してボックス内のオブジェクトのカテゴリーを分類するためにも使用されることを思い出してほしい。したがって、我々はviエンベッディングがカテゴリー予測に有用な情報を取り込むことを望んでいる。この目的のために、我々は、個々のオブジェクトを分類するのに適した表現を提供する既存の領域記述子を利用する。ここでは、最新の教師なし画像表現を得ることができるSwAV [6]を用いる。選択的探索によって出力されたM個のボックスのうち，各ボックスbiに対して，biで指定された画像内の領域にSwAVを適用する．対応する SwAV 記述子を zi とする．そして、このボックスのDETRエンベッディング（すなわちvi）からziを予測しようとするネットワークfemb : R d → R dを導入し、この予測の損失を最小化します。ここでも損失には、以下に説明するように、予測されたボックスとbiのマッチングが含まれる。

次に、上記2つのタスクを最適化するためのモデルの学習方法について説明します。選択検索は、常にM個のオブジェクト提案を返すと仮定します。上で説明したように、これらはM個のバウンディング・ボックスb1, ... . bM と M 個の SwAV 記述子 v1, ... ... , vM を生成するために使用されます。 bi と zi を含むタプルを yi = (bi , zi) とし，これらの M 個のタプルを y とします．我々の目的は，DETR モデルの N 個の出力が y とよく一致するようにトレーニングすることであることを思い出してください． v1..., vK は、DETR によって計算された画像依存のクエリエンベッディング（すなわち、DETR デコーダの最終層の出力）です。 DETRの予測ヘッドとして、予測されたバウンディングボックスを出力するfbox、ボックスが物体か背景かを予測するfcat、そしてSwAV記述子の再構築を試みるfembの3つを考えることを思い出してほしい。これら3つの出力を以下のように表す。

このような各トリプレットを用いてタプルyˆi = ( ˆbi , zˆi , pˆi)を定義し、N個のタプルの集合をyˆ = {yˆi}で表す。 N i=1とする。DETRクエリの数NはMよりも大きいと仮定し、したがってN個のタプルを得るためにyをパッド化し、yの各ボックスにラベルci∈{0, 1}を割り当て、それが選択的探索提案（ci = 1）であったか、パッド化された提案（ci = 0）であったかを示す。 DETRファミリーのオブジェクト検出器[59, 4]では、ラベルや予測の順序に関する仮定はありませんので、まず、yのオブジェクトとyˆのオブジェクトを、ハンガリアンバイパルタイトマッチングアルゴリズム[33]によって照合します。具体的には、yとyˆの間の最適マッチング・コストを最小化する順列σを見つける。

ここで，Lmatchは[4]で定義されたペアワイズ・マッチング・コスト行列であり，ΣNは{1 . . . . N}に対するすべての順列の集合である．N}. 最適なσを用いて，損失を次のように定義します．

ここで，Lfocal は Focal Loss であり[34]，Lbox は L1 loss と Generalized Intersection Over Union (GIoU) loss [42]に基づいている．最後に，Lemb を zi と zˆj のペアに対する L1 損失と定義し，これは，セクション 5 で述べた「物体の埋め込み」というプレテキストタスクに対応する

e4exp / paper_manager_abstract