Image-Level or Object-Level? A Tale of Two Resampling Strategies for Long-Tailed Detection

https://arxiv.org/abs/2104.05702
2021

分類や検出などの主要な認識タスクにおいて、ロングテール分布を持つデータセットでの学習は困難でした。この課題に対処するために，画像のリサンプリングが単純かつ効果的なアプローチとして一般的に導入されている．しかし，ロングテールの検出は，1つの画像に複数のクラスが存在する可能性があるため，分類とは異なります．そのため，画像のリサンプリングだけでは，オブジェクトレベルで十分にバランスのとれた分布を得ることはできない．本研究では，動的なエピソード記憶バンクに基づいたオブジェクト中心の記憶再生戦略を導入することで，オブジェクトレベルのリサンプリングに対処する．我々の提案する戦略には2つの利点がある。

1）余分な計算をせずにオブジェクトレベルのリサンプリングが可能であること、 2）モデルの更新による暗黙的な特徴レベルの拡張が可能であること。

我々は、画像レベルとオブジェクトレベルの再サンプリングがともに重要であることを示し、共同再サンプリング戦略(RIO)でそれらを統一する。我々の手法は、LVIS v0.5において、様々なバックボーンで最先端のロングテール検出およびセグメンテーション手法を凌駕する。

1. はじめに

実世界のビジュアルデータは、少数のオブジェクトクラスが非常に多く、多くのクラスが稀であるロングテール分布に従うことが多い(Zhu et al., 2014; Liu et al., 2019; Gupta et al., 2019)。しかし、多くの既存のデータセットは、バランスが取れているようにキュレーションされており（Krizhevskyら、2009年、Everinghamら、Linら、2014年）、これらのデータセットで開発・テストされた手法の性能と、実世界に展開されたときの性能との間に矛盾が生じている。多くのアプリケーションでは、希少なクラスのローカリゼーション/認識が重要であり、例えば、自律走行において、エゴカーは、システムがトレーニングデータであまり見たことのない特定の動物などのオブジェクトをローカリゼーションし、反応できることが期待されている。本論文では、ロングテールの物体検出（およびセグメンテーション）の問題に取り組みます。

ロングテールの認識は、大規模な視覚認識ベンチマークのリリースによって促進され、最近普及している(Liu et al., 2019; Gupta et al., 2019)。人気のあるアプローチには、クラス頻度に応じた損失関数の再重み付け（Tan et al., 2020）、表現と分類器の切り離し（Kang et al., 2019）のほか、特徴の正規化（Chen et al., 2019; Wang et al., 2020）、微調整（Wang et al., 2020）、メタ学習（Wang et al., 2017）などの数撃ちゃ当たる学習手法がある。これらの技術に加えて、リピートファクターサンプリング（RFS）（Mahajan et al., 2018; Gupta et al., 2019）が、シンプルだが人気のある画像リサンプリングのベースラインとして登場している。希少なクラスを含む画像を各エポックで繰り返すことで、この手法はロングテールの分類問題でうまく機能することが示されています（Wang et al.2018; Kang et al.2019）。しかし、経験的に有効であることが示されていても（Gupta et al., 2019）、物体検出に同じ手法をいきなり適用することは、一般的な画像には異なるクラスの複数の物体が含まれていることが多いという事実を無視している。これは、図1に示すように、頻出クラスと希少クラスが共通して共起していることで悪化する。したがって、画像のリサンプリングだけでは、学習分布のバランスをうまくとることができません。

検出の特別な側面として、オブジェクトが基本単位であることが挙げられます。このため、オブジェクトレベルでの分布をバランスよくすることができる、オブジェクト中心のサンプリング戦略が必要となります。この目標を達成するのは簡単ではありません。というのも、現在のオブジェクト検出のトレーニング方法では、画像レベルのバッチ・サンプリングが依然として主流のパイプラインだからです。例えば、対象となる希少クラスを含む追加の画像やオブジェクト群をサンプリングするなど、このパイプラインと互換性のある簡単な変更を検討することは可能です。しかし、特に分布が非常に不均衡な場合には、学習時に余分な前方伝播と後方伝播を行うことで、追加の計算コストが発生する可能性があります。また，サンプリングされた画像全体を入力とする場合には頻出クラスを無視する必要があり，オブジェクトの切り出しだけを入力とする場合には画像のコンテキストが失われるなど，複雑な問題が生じる可能性がある．

我々は、各バッチに関心領域（RoI）の特徴とそれに対応するボックスの位置を追加する、新しいオブジェクト中心のメモリ再生フレームワークを提案することで、これらの問題に対処する。我々のフレームワークの核となるのは、前回のフォワードプロパゲーションで得られたRoI特徴を再利用するというアイデアである。これを実現するには，RoI特徴とボックスの座標を格納する動的なメモリバンクを導入する必要があります。このメモリバンクは、新たに計算されたRoI特徴のバッチをプッシュすることで、反復ごとに継続的に更新され、基本的には、各クラスのRoI特徴を蓄積するための限られたサイズのバッファとして機能します。不均衡な入力分布の下では、頻繁に使用されるクラスのバッファは早く満たされ、更新されますが、まれなクラスのバッファは時間の経過とともに満たされます（ただし、ゆっくりと）。このように、メモリバンクを利用することで、順方向/逆方向の伝搬を追加することなく、効率的にオブジェクトのリサンプリングを行うことができます。

上記の戦略には、さらに2つの利点があります。 (1) メモリバンクには、過去のモデルスナップショットからの特徴が含まれているため、時間を超えたモデルレベルの補強が可能です。 (2) モデルは継続的に更新され、画像はランダムに追加されるため、同じオブジェクトのボックスの位置は、時間の経過とともにわずかに異なる可能性があります。このように、我々のOCSフレームワークは、様々なレベルでの多様な補強を実現することができます。我々は、画像レベルとオブジェクトレベルのリサンプリングの両方について詳細な分析を行い、検出のための見落とされた落とし穴を検討する。

この2つの戦略はリサンプリングの異なる側面を捉えていますが、実際には相互に排他的なものではありません。メモリバンクは、時間をかけて特徴を蓄積することで不均衡な分布に対抗することができますが、我々の分析によると、特定の非常に稀なクラスは、1つのエポックに数回しか現れません。これは、特徴が著しく古くなり、メモリバンクの品質を低下させることにつながります。幸いなことに、このような問題は、RFSベースの画像リサンプリングで直接解決することができます。そこで我々は、画像レベルとオブジェクトレベルのリサンプリングが共生できることを主張し、RIO（Resampling at Image-level and Object-level、図1）と呼ばれる共同リサンプリング戦略を提案する。我々は、ロングテール検出のために現在最も人気があり挑戦的なベンチマークであるLVISで、我々の手法の有効性を紹介する（Gupta et al.、2019）。これまでの手法では、全体的な精度は向上するものの、希少なクラスでは共通クラスや頻出クラスとの間に依然として大きなギャップが見られます。我々の手法はこの問題を大幅に軽減し、全体的にも希少クラスでも最先端の性能を発揮することができます。

貢献の概要

我々は、メモリバンクに基づいた新しいオブジェクト中心のメモリ再生戦略を提案する。我々の手法は、暗黙の増強を伴う効率的なオブジェクトレベルのサンプリングを行うことができる。
我々は、オブジェクト中心のメモリ再生において、イメージレベルとオブジェクトレベルの両方で分布のバランスをとることの重要性を示す。このことから、両方の方式を統合したリサンプリングフレームワークであるRIOを提案することになりました。
我々のフレームワークは非常にシンプルですが、意欲的です。提案手法は、全体的な精度と希少なクラスの精度の両方において、最先端の性能を達成している。

3. 方法

我々の最終的な目標は，希少なクラスの数だけを増やすことであるが，多オブジェクト画像の性質上，画像のリサンプリングだけでは達成できない。そこで、図2に示すように、画像サンプリングと並行して、メモリバンクからRoIオブジェクトのサンプルを用いてバッチを増強します。次のセクションでは、メモリバンクの設定、動的変更、およびトレーニングについて説明します。 LVISのクラスセットの定義に従うと、ロングテールデータセットのクラスは、クラスごとの学習例の数に基づいて、3つのクラスセットに分けられる。

1) Sf 、100枚以上の頻出クラス、 2) Sc 、100枚未満だが10枚以上の共通クラス、 3) Sr 、10枚以下の希少クラスである。

1枚の画像Ii , i∈(1, ... , N)に対して、k個のオブジェクトをo j i , j∈(1, ... , k)とする。各o j iは、そのカテゴリc j i , j∈(1, ... , k)に対応する。

3.1. メモリバンク

設定

メモリバンクMは，図2に示すように，対象となるオブジェクトクラスごとに複数の独立したキューで構成されている。レアなクラスだけを繰り返したいので，Mのキーとなるクラスはレアなクラスだけである．なお，キーとなるクラスは，必要に応じて任意のクラスのセットに設定することができる．効率とスペースを改善するために，各qrは最大量のv個のサンプルしか保存できません．我々のキューは、キューからのサンプリングがキューからサンプルを削除しないという意味で、伝統的なキューではないことを強調します。最後に，我々のメモリバンクはトレーニング時にのみ利用されることに注意してください．評価は、補強なしで通常通り行われます。ここでは，メモリバンクで使用される3つの主な操作について説明し，すべての操作を図3に示します．

メモリバンクへのプッシュ。

メモリバンクはオブジェクトレベルのサンプルのみで構成されています。これを実現するために、Mはクラスラベルとそのバウンディングボックス座標を持つRoIオブジェクトの特徴で構成される。 Mask R-CNN を用いた我々のフレームワークでは、分類とバウンディングボックス回帰の分岐の直前にある完全連結層から RoI 特徴とバウンディングボックスを取得します。ただし、RoIレベルの特徴はメモリバンクで使用できることを強調しています。図2は、我々の特徴抽出の位置を示したものである。学習バッチBを用いた学習反復tにおいて，画像iに提案されているすべてのオブジェクトを，o j i , j∈(1, ... , k)と表す．オブジェクトカテゴリc j i∈Srの場合、RoI特徴量とバウンディングボックス（{feat, box}tと表記）を、Mのカテゴリキューqrの先頭に押し込む。すべての画像とオブジェクトを反復して、Mに追加するRoI特徴とバウンディングボックスを発見します。任意のキューqrがその最大スペース制限vに達した時点で、我々はqrから特徴と提案のペアをデキューする必要があります。 qrは、最も古いサンプルが配置されているキューの最下部からデキューします。図3に示すように、ペア{feat, box}tをフルqrにプッシュしたい場合、まずqrからデキューし、次に{feat, box}tをqrにプッシュします。

メモリバンクからのデキューイング。

任意のキューqrがその最大スペース制限vに達した時点で、我々はqrから特徴と提案のペアをデキューする必要があります。 qrは、最も古いサンプルが存在するキューの底部からデキューします。図3に示すように、ペア{feat, box}tをフルqrにプッシュしたい場合、まずqrからデキューし、次に{feat, box}tをqrにプッシュします。

メモリバンクからのサンプリング。

バッチは，qrに少なくとも1つのサンプルが投入されるまで，Mのキューqrからカテゴリrをサンプリングすることはできません． qrは，トレーニング中にrを含む最初の画像が観察された直後に投入されます． qrが生成されると，qrからサンプルを抽出して，任意のトレーニングバッチを補強することができます．学習バッチBを用いた学習反復tにおいて，必要に応じてオブジェクトレベルのサンプルでバッチを補強します．具体的には、qrから特徴量と提案量のペア{feat, box}t-l , l∈(1, .. ... , x)をx個サンプリングしてバッチを増強する。なお、サンプル数xは任意に変更可能である。ここからは通常通り、分類とバウンディングボックス回帰に向けて学習が進む。要約すると、現在のバッチに対象となるカテゴリが存在する場合、クラスのキューは、

1）必要に応じてキューを解除し、 2）キューからグランドトゥルークラスとバウンディングボックスを持つ追加の特徴をサンプリングし、 3）現在の特徴、グランドトゥルークラス、バウンディングボックスをキューにプッシュする。

ここで強調したいのは、メモリバンクを利用することで、異なる画像からのオブジェクトサンプル、モデルのスナップショット、画像の補強などでバッチを増強することができるということです。

3.2. リサンプリング戦略

このセクションでは、様々なリサンプリング戦略を検討し、画像/オブジェクトレベルの分布のバランスをとるための効果を分析します。また、メモリバンクを用いたリサンプリングポリシーを設計する際の役割についても検討する。データセット我々はLVISバージョン0.5のデータセットでの分析を報告する。 LVISバージョン0.5は1230個のクラスを含み、454個の稀なカテゴリ、461個の一般的なカテゴリ、315個の頻出カテゴリに分けられる。 LVISでは、100枚以上の画像を持つクラスをfrequent、10枚以上100枚未満の画像を持つクラスをcommon、10枚以下の画像を持つクラスをrareと定義しています。画像のリサンプリングリピートファクターサンプリング（RFS）（Gupta et al.、2019）は、LVISのベースラインとなる画像リサンプリング方法である。この方法は新しいものではなく、したがって我々の貢献の一部ではない。 RFSは、エポックごとにどの画像を繰り返すかを指示する前処理方法である。まず、各カテゴリcに対して、RFSはそのカテゴリを含む画像の割合を計算し、それをf(c)とします。次に，各カテゴリcについて，カテゴリレベルの「繰り返し因子」r(c) = max(1, p t/f(c))を計算します．ここで，tはデフォルトで0.001に設定されたハイパーパラメータです．最後に，k個のユニークなカテゴリを含む各画像Iに対して，画像レベルの「リピートファクター」が，r(I) = max(1, r(c)), c∈1, ... ... , kと計算されます．直感的には，最も希少なカテゴリが各画像のリピート率を計算するために使用されます． RFSは，検出のための効果的なリサンプリング戦略であるが，その画像ベースのリサンプリングには，ロングテールの検出問題に対して一定の限界がある．画像には、頻繁に出現するカテゴリー、一般的なカテゴリー、まれなカテゴリーが混在していることが多い。そのため、画像をリサンプリングすると、珍しいクラスのものだけでなく、存在するすべてのオブジェクトがリサンプリングされてしまいます。この現象を説明するために、図4aにカテゴリーごとのオブジェクトインスタンスの数をエポックごとに示します。頻出するクラスの数も増えていることがわかります。同様に、図4bでは、頻出クラス、共通クラス、希少クラス全体のオブジェクト・インスタンスの総数を示しています。頻出クラス全体では、オブジェクトインスタンス数が18%相対的に増加しています。検出におけるリサンプリングの理想的な目的は，オブジェクトレベルの分布を十分に均等化することです．しかし、オブジェクトレベルの分布を操作することは、画像ベースのリサンプリング戦略では基本的に困難です。そこで、オブジェクトレベルのリサンプリングを行うことで、この問題を解決しました。

オブジェクトリサンプリング。

オブジェクトセントリックサンプリング（OCS）は、画像全体ではなく、対象となるオブジェクトインスタンスをリサンプリングします。これは、対象となるクラスを持つバッチに、設定された量の追加の特徴（デフォルトは20）を加えることで実現しています。これらの特徴はメモリバンクに保存され、対象となるオブジェクトが見られると継続的に更新されます。あるエポックにおいて、オブジェクトレベルのサンプリングがオブジェクトインスタンスの数に与える影響を図4bに示します。 OCSは、インスタンス数の少ないクラス、例えば、レアなクラスや一般的なクラスのサブセットを、頻繁に出現するクラスを追加でサンプリングすることなく、特別に再サンプリングすることができます。しかし、OCSは、更新するメモリバンクに依存している。メモリバンクは、バッチに対象となるオブジェクトを含む画像が含まれている場合にのみ更新が許可されます。そのため、OCSの成功は、エポックあたりの画像数によって制限されます。図4cでは、オブジェクト・インスタンスの総数が1～11個である、最も一般的なタイプのレア・クラスのメモリ・バンクの更新頻度を観察することができます。画像のリサンプリングを行わない最悪のケースでは、1つの画像でしか見られないレア・クラスは、1つのエポックで1回しかメモリ・バンクを更新できません。さらに、エポックの初期にしか見られないオブジェクト・インスタンスは、エポックの後期に見られるより成熟した特徴を欠いています。また、エポック初期にしか見られないオブジェクトインスタンスは、エポック後期に見られるより成熟した特徴を欠いています。

提案されたリサンプリング戦略。

ローカライズのためのリサンプリング・ポリシーを検討する際、画像のリサンプリングもオブジェクトのリサンプリングも単独では十分ではないことがわかった。画像のリサンプリングは冗長な頻出クラスをリサンプリングするという問題があり、オブジェクトのリサンプリングはメモリバンクの更新が可能なエポック内での画像の出現回数に制限がある。我々は、ローカリゼーションのリサンプリングには、画像レベルのリサンプリングとオブジェクトレベルのリサンプリングの両方が必要であり、それぞれが補完関係にあるという仮説を立てました。図4cに示すように、画像のリサンプリングを行うことで、特徴量のメモリバンクをより頻繁に更新することができます。同様に、図4bでは、オブジェクトのリサンプリングを行うことで、頻出クラスのインスタンスの総数を増やすことなく、希少クラスと共通クラスのインスタンスの数を増やすことができます。以上のことから，物体検出のための包括的なリサンプリング戦略として，画像レベルと物体レベルの両方でリサンプリングを行うRIOを提案する． RIOの効果については，図4dにカテゴリごとのオブジェクトインスタンス数を示すことで説明する。

e4exp / paper_manager_abstract