Augmentation Strategies for Learning with Noisy Labels

e4exp commented 3 years ago

https://arxiv.org/abs/2103.02130
2021

実世界のデータセットでは、不完全なラベルがいたるところに存在しています。ラベルノイズに強いディープニューラルネットワーク（DNN）を学習するための最近の成功した手法は、次の2つの主要なテクニックを使用している。すなわち、ウォームアップ段階で損失に基づいてサンプルをフィルタリングし、きれいなラベルを持つサンプルの初期セットをキュレーションすることと、ネットワークの出力をその後の損失計算のための擬似ラベルとして使用することである。本論文では、「ノイズの多いラベルを用いた学習」問題に取り組むアルゴリズムのための様々な補強戦略を評価する。複数の拡張戦略を提案・検討し，CIFAR-10とCIFAR-100に基づく合成データセットと，実世界のデータセットであるClothing1Mを用いて評価した．これらのアルゴリズムにはいくつかの共通点があることから，損失モデル化タスクに1セットの拡張機能を使用し，学習に別のセットを使用することが最も効果的であり，最先端の手法や他の既存の手法よりも結果が向上することがわかった．さらに、ウォーミングアップ期間中にオーグメンテーションを適用すると、正しくラベル付けされたサンプルと正しくないサンプルの損失収束挙動に悪影響を与えることがわかった。この補強戦略を最先端の手法に導入し、評価したすべてのノイズレベルで性能を向上できることを実証した。特に，CIFAR-10ベンチマークの90%対称ノイズにおいて，絶対的な精度を15%以上向上させることができ，Clothing1Mデータセットにおいても性能を向上させることができた．

K. NishiとY. Dingは本研究に等しく貢献しました。

e4exp commented 3 years ago

はじめに

データオーグメンテーションは、データセットを拡張するための一般的な手法であり、画像分類[32]や物体検出[28]など、多くのコンピュータビジョン問題に適用され、成功を収めている。特に、AutoAugment [6]やRandAugment [7]のような学習型オーグメンテーションは、データセットを熟知した専門家がオーグメンテーション・ポリシーを作成する必要がなく、多くの成功を収めてきた。学習時に拡張ポリシーを組み込むことで、汎化と頑健性が向上することが示されている[12, 8]。しかし，LNL（Learning with noisy labels）の領域での拡張政策の有効性を検討した研究はほとんどない[21]． LNL問題に取り組む多くの技術は、Arpitら[2]によって発見されたように、正しくラベル付けされたデータが正しくないラベル付けされたデータよりも先に適合するという、ネットワーク記憶効果を利用しています。この現象は、損失関数と学習プロセスをモデル化することで、ディープニューラルネットワーク（DNN）で成功し、損失補正[29]やサンプル選択[10]などのアプローチが開発されました。最近では，MixUp augmentation [35]を取り入れることで，より高いノイズレベルを許容するアルゴリズムの能力が劇的に向上しました[1, 14]．多くの既存作品では、一般的なランダムフリップやクロップ画像のオーグメンテーションが使用されており、我々はこれを弱いオーグメンテーションと呼んでいるが、我々の知る限りでは、LNLアルゴリズムの学習時にAutoAugmentのような学習済みポリシーからより積極的なオーグメンテーションを使用することを検討した作品はない。これらのより強力なオーグメンテーションポリシーには、rotate、invert、sheerなどの変換が含まれる。我々は、これらのより強力なオーグメンテーション・ポリシーを、既存のアーキテクチャに戦略的に組み込むことで、性能を向上させることを提案する。我々の直感では、拡張技術が成功するためには、 (1)データセットの一般化を改善し、 (2)LNL技術が依存しているロスモデリングとロスコンバージェンスの動作に悪影響を与えないことが必要である。

この点を考慮して、我々は、ネットワークの記憶効果に悪影響を与えることなく、データの拡張から利益を得るために、Augmented Descent (AUGDESC) と呼ぶ拡張戦略を提案する。 AUGDESCのアイデアは、2つの異なる拡張を使用することである。すなわち、任意の損失モデルと擬似ラベリングタスクに対して弱い拡張を行い、一般化を改善するためにバックプロパゲーションステップに対して強い拡張を行う。本論文では、既存のLNLアルゴリズムにどのようにして強い補強を取り入れれば、より良い結果が得られるかを提案・検討する。以下の貢献を通じて、この問題に対するいくつかの答えを提供します。

本論文では，拡張戦略であるAugmented Descentを提案し，ノイズの多いラベルシナリオの下で，合成データおよび実データセットにおいて最先端の性能を実証する．これにより，評価されたすべてのノイズレベルで性能が向上することを実証的に示す（セクション4.4）．特に，90%対称ノイズのCIFAR-10ベンチマークでは，絶対的な精度が15%以上向上し，実世界のデータセットであるClothing1Mでも性能が向上した（セクション4.5）．
学習プロセスにどのようにオーグメンテーションを組み込むかによって，性能に大きな影響があることを示している（セクション4.2）．経験的に、記憶効果に悪影響を与えないためには、初期のエポックで弱い増強を行い、その後に強い増強を行うのが良いと判断している。損失分布の挙動を分析し、将来的に拡張機能を効果的に取り入れるためのヒントを得る（セクション4.3）。
既存の技術の一般化研究を行うことで、我々の拡張手法の有効性を評価する（セクション4.7）。ハイパーパラメータを調整することなく，我々の提案する拡張戦略を追加するだけで，既存の技術を絶対的な精度で最大5％改善することができた．

e4exp commented 3 years ago

3. 方法

まず、様々なアルゴリズムがネットワーク記憶効果[2]の文脈でどのように動作するかを説明する。次に、ある拡張セットに基づいて信頼性の高いサンプルのフィルタリングと擬似ラベルの生成を行い、次に別の拡張セットで勾配降下を行うAugmented Descent戦略を提案する。最後に、既存の技術を後付けする方法の例を示します。

3.1. ノイズの多いラベルシナリオでの損失モデル

ある学習データD = (xi , yi) N i=1に対して、クロスエントロピー損失を用いて予測を行う分類器を学習することができる。

ここで，hθはニューラルネットワークで近似された関数です．基本的に、多くのアルゴリズムは、ニューラルネットワークを学習する際に、正しくラベル付けされたデータが誤ってラベル付けされたデータよりも先に収束する傾向があるという、Arpitら[2]に概説されている動作を利用しています。既存のアルゴリズムの多くは、ある程度の「疑似ラベリング」を採用しており、ネットワークが自身の推測を用いてデータセットの残りの部分のラベルを近似しています。これは、フィルタリングや損失関数の修正により、信頼度の高い（または初期損失の低い）サンプルの学習を促すことで実現しています。例えば、サンプル選択手法であるCoteaching[10]では、損失の少ないサンプルを姉妹ネットワークに与え、正しいと思われるデータでネットワークを学習させることで実現している。抽象的には、各学習エポックの入力から、正しくラベル付けされていると思われるC = arg min_{D:|D|≧R(T)|D|} l(f, D)の2つのデータセットを作成することになる。ここで、R(T)は、損失行動によって経験的に決定されるクリーンセットに入れるサンプル数の閾値であり、誤ってラベル付けされているI = D\ Cのセットを使用して、損失を得る

ここでは、学習が進むにつれて、間違ったラベルが付けられていると思われるサンプルを無視しています。これは、モデルが間違っていると考えているサンプルに0項を掛けたもので表されます。これに対し、Arazoら[1]は、ネットワーク自身の予測を、前エポックの損失に適合した混合モデルによって決定された信頼度に基づく加重和として損失に組み込むことでノイズ耐性を実現し、ラベルをよりソフトに組み込むことを可能にしています。

最近では，DivideMix [14]がこれらのアイデアを組み合わせ，ネットワークの推測を組み込むために入力に重みを割り当て，入力を2つのセットに分離し，MixMatch [4]を用いて半教師付きで結果のデータを用いて学習を行う．このような理解のもと，我々は，正しくラベル付けされたデータと正しくないラベル付けされたデータを分離するために損失モデルを採用したLNL技術に対して，Augmented Descent (AUGDESC)を提案する．サンプルの損失モデリングと分類のための入力の1つの拡張を使用して、仮想セットCとIを作成したり、疑似ラベルzを決定する一方で、バックプロパゲーションの目的でネットワークhθの入力として別の拡張を利用することを提案する。これにより、各入力に対する学習時のフォワードパスの回数が2倍になります。この目的は、損失モデルに悪影響を及ぼさないようにすることと、学習過程でより多くの一般化を注入できるようにすることです。セクション3.4では、DivideMixにAUGDESCを組み込む方法の例を示します。

3.2. 拡張戦略

既存のアルゴリズムに拡張機能を組み込むために、以下の戦略を検討する。図1は、既存の技術に我々の拡張戦略を組み込むための概念的な表現である。

生。オリジナルの画像をそのまま使用します。

データセットの拡張。元のサイズの2倍のデータセットを作成します。これをさらに拡張することなく、直接モデルに投入する。

ランタイムオーグメンテーション．実行時にネットワークに入力する前に、画像を変換します。

Augmented Descent (AUGDESC): 2つの拡張された画像セットが作成されます。1つのセットはあらゆる損失分析タスクに使用され、もう1つのセットは勾配降下法に使用されます。この動機は、サンプルのフィルタリングと疑似ラベリングのプロセスを損なうことなく、各画像に対してより良い表現を学習することができるからです。

3.3. オーグメンテーション・ポリシー

3種類のオーグメンテーション・ポリシーを評価し，"weak "と "strong "に分類した．多くのアルゴリズムでは、標準的なランダムクロップとフリップを用いてオーグメンテーションを行っている[16]。我々はこの処理を弱いオーグメンテーションと呼ぶ。我々は、AutoAugment [6]とRandAugment [7]から自動的に学習されたポリシーを用いて、強いオーグメンテーションを実験する。 AutoAugmentとRandAugmentはどちらも、特定のポリシーを手動で調整することなくオーグメンテーションを適用する方法を提供している。我々の強力なオーグメンテーション・ポリシーは、まずランダムな切り取りと反転を行い、次にAutoAugmentまたはRandAugment変換を行い、最後に正規化を行う。データセットの拡張とランタイムの増強のために、弱い増強と強い増強の両方を実験した。Augmented Descentの3つのバリエーションを検証する。 AUGDESC-WWは、弱増強された入力を用いて損失分析を行い、このラベルを用いて同じ入力の別の弱増強バージョンを学習することを意味します。同様に、AUGDESC-SSは、強く拡張された損失分析を、強く拡張された勾配降下法と組み合わせたものです。最後に、AUGDESC-WSは、弱オーグメンテッド損失分析と強オーグメンテッド最適化に対応します。 AutoAugmentは、実際のデータの小さなサブセットで学習されるため、既存のアーキテクチャに簡単に組み込むことができます。さらに、RandAugmentを用いたアブレーション研究を行い、我々のオーグメンテーション戦略がオーグメンテーションポリシーにとらわれないこと、またデータセット固有のオーグメンテーションや事前に学習したオーグメンテーションが必要ないことを示した。 AutoAugmentは事前にトレーニングされたポリシーのセットを規定しているが、RandAugmentは使用するネットワークやトレーニングセットのサイズに依存するチューニングが必要であるため、我々の実験のほとんどにAutoAugmentを使用している。

3.4. State of the Artへの適用上記以外の多くの技術にも同様の特徴があり、同様の方法で分析することができるが、本稿では現在の最新技術であるDivideMix[14]の文脈でこの拡張戦略を検証する。次に，この補強戦略を他の技術に拡張し，実験のセクションで結果を報告する。 DivideMixは、ウォームアップ、cotraining[13, 10]、MixUp[35]の要素を取り入れたものである。オリジナルのDivideMixアルゴリズムでは，まず，Pereyraら[23]の負のクロスエントロピー項を追加することで，自信のある予測に対してペナルティを課した通常のクロスエントロピー損失を用いてウォームアップを行う．

その後，各学習エポックにおいて，まずGMMを用いて，2つのネットワークそれぞれのサンプルごとの損失をモデル化します．そして，このモデルとクリーンな確率閾値を用いて，ネットワークはサンプルをラベル付きセットxとラベルなしセットuに分類します．この2つのセットのそれぞれからバッチを取り出し，最初に補強します．補強されたサンプルを用いて予測が行われ，ラベル分布のエントロピーを減少させるために，出力にシャープネス関数が適用される[4]．これにより、ラベル付きおよびラベルなしの入力に対するシャープな推測が生成され、最適化に使用される。アルゴリズム1では、拡張戦略の適用方法を説明している。 1つはオリジナルのDivideMixパイプラインのため、もう1つはMixMatch損失を使ったトレーニングのためにオリジナルの入力を補強するためです。これまでの技術での実装例は補足に含まれています。

e4exp commented 3 years ago

結論

本論文では、ラベルノイズを用いた学習の領域において、様々な補強戦略を提案し、その効果を検証した。その結果、特にノイズ率が高い場合には、補強を追加することが有利であることがわかった。さらに，ノイズ率が高い場合，ウォームアップ期間中に大量の補強を行うことは，ニューラルネットワークがノイズのあるデータよりもきれいなデータに適合するという特性に悪影響を及ぼす可能性があるため，避けるべきである[2]．我々は広範な研究を行い，AUGDESCWS戦略が，あらゆるノイズレベルと複数のデータセットにおいて改善をもたらすことができることを明らかにした．さらに、AUGDESCWS戦略を従来の技術に適用して成功を収め、その汎用性を示しました。これは、これらの機械学習アルゴリズムにおいて、2つの異なるタスクのために、2つの異なるプールのオーグメンテーション操作を使用することがいかに有益であるかを示す追加の証拠です。このアイデアは、以前、SSL設定で効果的であることが実証されましたが[27]、今回、LNL設定でこれを示します。以上のように、様々な程度のオーグメンテーションを取り入れることがどのような場合に有効であるかを検討した結果、最先端の技術を発展させるとともに、従来の技術の性能を向上させる戦略を示すことができました。オーグメンテーションの強さと量に関する洞察が、今後、LNLアルゴリズムを開発する際のオーグメンテーションの応用に役立つことを期待しています。

e4exp / paper_manager_abstract