e4exp / paper_manager_abstract

0 stars 0 forks source link

Correlated Input-Dependent Label Noise in Large-Scale Image Classification #509

Open e4exp opened 3 years ago

e4exp commented 3 years ago

大規模な画像分類データには,ノイズの多いラベルが含まれることが多い. 我々は、これらのデータセットにおける入力に依存した、異種介在性とも呼ばれるラベルノイズをモデル化するために、原理的な確率論的アプローチを取る。 ニューラルネットワーク分類器の最後の隠れ層に、多変量正規分布の潜在変数を配置します。 この潜在変数の共分散行列は、ラベルノイズに起因するアレイター的な不確実性をモデル化する。 我々は、学習された共分散構造が、意味的に類似したクラスや共起するクラス間のラベルノイズの既知のソースを捉えることを実証した。 標準的なニューラルネットワーク学習や他のベースラインと比較して,Imagenet ILSVRC 2012 79.3% (+2.6%),Imagenet-21k 47.0% (+1.1%),JFT 64.7% (+1.6%)と,大幅に精度が向上した. また,WebVision 1.0では76.6%のトップ1精度を達成し,最先端の結果を得ました. これらのデータセットは,1百万から3億以上の学習例と,1kクラスから21kクラス以上のクラスを含んでいます. 我々の手法は使いやすく,深層分類器の最後の完全連結層を置き換えることができる実装を提供しています.

e4exp commented 3 years ago

1. はじめに

多くのクラスと大規模なトレーニングセットを持つ画像分類データセットは,しばしばノイズの多いラベルを含んでいる[2, 30]. 例えば,Imagenet には,人間のアノテーターが区別するのが難しい,多くの視覚的に類似したクラスが含まれている [10, 2]. WebVisionなどのデータセットでは,Web上の画像に共起するテキストを見てラベルを自動生成していますが,この自動化プロセスは100%信頼できるものではないため,ラベルノイズを含んでいます[30]. ラベルノイズの下で分類するための様々な技術が既に存在している[29, 23, 16, 37, 24, 6, 9, 36, 18]. 画像が誤ってラベル付けされた場合,ランダムなクラスではなく,関連する他のクラスと混同される可能性が高い[2]. したがって,画像分類のラベルノイズをモデル化する際には,クラス間の相関を考慮することが重要である. 本論文では,ラベルノイズをモデル化するために,原理的な確率論的アプローチを採用している. ここでは、ニューラルネットワーク分類器の最終隠れ層に、多変量正規分布の潜在変数を持つ、ノイズのあるラベルの生成過程を仮定します。 この正規分布の平均と共分散のパラメータは、入力画像の共有表現から計算されるため、入力に依存しています(別名、ヘテロスセダスティック)。 このクラス間のノイズの相関をモデル化することで,どのクラスペアが代替品であるか,あるいはよく共起するためにノイズの多いラベルになるかを学習することができます. 図(1)は、ラベルノイズが相関していると我々のモデルが学習した2つのImagenetクラスの例です。 我々は,4つの大規模画像分類データセット,Imagenet ILSVRC12 and Imagenet21k [10],WebVision 1.0 [30],JFT [21]を用いて我々の手法を評価した. これらのデータセットは,100万以上の学習例(ILSVRC12)から3億以上の学習例(JFT)まで,また,1kクラス(ILSVRC12 & WebVision)から21kクラス以上(Imagenet-21k)までの範囲である. 全てのデータセットにおいて、(a)標準的なニューラルネットワーク学習、(b)共分散行列の対角線のみをモデル化する手法、(c)noisy labelsの文献にある手法と比較して、精度と負の対数尤度が向上したことを実証した。

本研究では,確率的ラベルノイズモデルが,ネットワークが学習する表現に与える影響を評価した. その結果,JFTで事前学習した本手法は,Visual Task Adaptation Benchmark (VTAB) [47]の19個のデータセットに対して,より良く移行する画像表現を学習することがわかった.

貢献度 要約すると、我々の貢献は以下の通りである。

  1. クラス間の相関ラベルノイズをモデル化し、大規模なデータセットにも対応できる新しい手法である。
  2. 4つの大規模画像分類データを用いて評価したところ,標準的なニューラルネットワーク学習や対角共分散法に比べて大幅に性能が向上した.
  3. 学習した共分散行列が、意味的に類似したクラスや共通して出現するクラス間の相関をモデル化していることを示す。
  4. 4.VTABにおいて、我々の手法はより一般的な表現を学習し、19の下流のタスクにうまく移行する。

image