e4exp / paper_manager_abstract

0 stars 0 forks source link

Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks #462

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本研究では,コンピュータビジョン,自然言語,オーディオのデータセットのうち,最も一般的に使用されている10個のテストセットにおけるラベルエラーをアルゴリズムによって特定し,これらのラベルエラーがベンチマークの結果に影響を与える可能性を調査しました. 10個のデータセットの平均誤差は3.4%と推定され、例えばImageNetの検証セットでは2916個のラベルエラーが6%を占めていました。 推定されるラベルエラーは、自信を持って学習することで発見され、クラウドソーシングで人間が検証します(アルゴリズムでフラグを付けた候補の54%が実際に誤ってラベル付けされています)。 意外なことに、誤ってラベル付けされたデータの割合が高い現実のデータセットでは、容量の小さいモデルの方が、容量の大きいモデルよりも実質的に有用であることがわかった。 例えば、ラベルを修正したImageNetでは、ResNet-18がResNetを上回りました。 例えば、ラベルを修正したImageNetでは、元々誤ったラベルを付けたテスト例の割合がわずか6%増加しただけで、ResNet-18はResNet-50を上回ります。 CIFAR-10のラベルを修正した場合。 また、CIFAR-10のラベルを修正した場合、VGG-11はVGG-19よりも優れていますが、これは元々のラベルが間違っていたテスト例の割合が5%増加した場合です。 従来、MLの実務者は、テストの精度に基づいてどのモデルを導入するかを選択していましたが、今回の発見は、特にノイズの多い実世界のデータセットにおいては、正しくラベル付けされたテストセットでモデルを判断する方が有用であることを提案しており、注意が必要です。

e4exp commented 3 years ago

1 はじめに

大規模なラベル付きデータセットは,画像分類,感情分析,音声分類などの分野で,教師付き機械学習を成功させるために不可欠なものとなっています。 しかし,データセットを構築するためのプロセスには,ある程度の自動ラベリングやクラウドソーシングが含まれることが多く,これらの技術は本質的にエラーが発生しやすいものである[Sambasivan et al.,2021]. エラー修正のコントロールがあっても[Kremerら、2018、Zhangら、2017]、エラーがすり抜けてしまうことがある。 先行研究では、ノイズの多いラベルの結果について検討されてきましたが、通常はノイズの多いラベルを使った学習という文脈で、通常は訓練セットのノイズに焦点を当てていました。 いくつかの過去の研究では、ノイズの多いラベルで学習する技術があるため、ラベルノイズは大きな問題ではないと結論づけられており[Patriniら、2017年、Natarajanら、2013年]、また、深層学習はラベルノイズに対して自然にロバストであると考えられているため[Rolnickら、2017年、Sunら、2017年、Huangら、2019年、Mahajanら、2018年]。

しかし、テストセットのラベルエラーはあまり研究されておらず、異なる潜在的な結果を持っています。 少数の機械学習データセット、例えばImageNetデータセットにおける訓練セットのラベルにはエラーが含まれていることがよく知られていますが[Northcutt et al., 2021, Shankar et al., 2020, Hooker et al., 2019]、テストセットのラベル付きデータは、訓練セットと同じ分布から抽出されている限り「正しい」と考えられることが多いのですが、これは誤りで、機械学習のテストセットには広範なエラーが含まれる可能性があり、また実際に含まれており、これらのエラーはMLベンチマークを不安定にします。 研究者は、技術の進歩を評価・測定し、理論的知見を検証するために、ベンチマークテストデータセットに依存しています。 もしラベルエラーが大量に発生すれば、機械学習の進歩を測る枠組みが崩れてしまう可能性があります。 実務者は、慎重に作成されたベンチマークデータよりもノイズの多い実世界のデータセットに依存していることが多い。 これらのテストセットのラベルエラーは、どのモデルが実際の世界で最も優れた性能を発揮するかについて、実務者を誤った結論に導く可能性があります。 本研究では,コンピュータビジョン,自然言語処理,音声処理の分野で一般的に使用されている10種類のデータセットについて,ラベルの誤りを特定し,体系的に分析した初めての研究を紹介する. ノイズの多いラベルに関する先行研究とは異なり、合成ノイズではなく、自然に発生するエラーを用いて実験を行っています。

本論文では,ラベルエラーに対処するための新たな方法論を探るのではなく,MLの進歩を測るために使用される人気のあるベンチマークのテストデータにおけるラベルエラーの有病率を特徴づけることを目的とし,続いてこれらのエラーの実用的な結果,特にモデル選択への影響を分析する. 本研究では,確信的学習(Northcutt et al., 2021)を用いて,スケール2のテストセットに含まれるラベルエラーをアルゴリズムで特定し,そのラベルエラーを人間の評価によって検証したところ,平均で3.4%のエラーが発生していた. 例えば、テストセットとして一般的に使用されているImageNet検証セットでは2916個(6%)のエラーを特定し、QuickDrawでは500万個(10%)以上のエラーを推定している。 図1は、今回調査した画像データセットで検証されたラベルの誤差の例を示している。

image

ImageNetとCIFAR-10をケーススタディとして使用し、テストセットのラベルエラーがベンチマークの安定性に与える影響を理解した。 これらのベンチマークのテストデータには多数の誤ったラベルが含まれていますが、これらのラベルエラーを除去または修正しても、ベンチマーク内のモデルの相対的な順位には影響がないことが分かりました。 例えば、NasNetのような大容量モデルは、ResNet-18のようなパラメータ数の少ないモデルに比べて、系統的なラベル誤差の分布を予測値に反映させることができず、この効果は誤ったラベルを持つテストデータが多いほど大きくなります。 これは従来のオーバーフィッティングとは異なります。 大規模なモデルは、テストデータに含まれるノイズの多いラベルに対してより良く一般化することができますが、これらのモデルは、誤ってラベル付けされたテスト例の補正されたラベルで評価した場合、低容量のモデルよりも悪い予測結果を出すという問題があります。 誤ってラベル付けされたデータの割合が高い現実の環境では、低容量のモデルが高容量のモデルよりも実質的に有用である可能性があります。 例えば、最初に与えられたラベルに対するテスト精度ではNasNetがResNet-18よりも優れているように見えるかもしれませんが、実際には補正されたラベルに対するテスト精度ではNasNetはResNet-18よりも劣っています。 実際には後者の精度が重要なので、ここではNasNetではなくResNet-18を導入すべきですが、これはテストデータのラベルを補正しないとわかりません。 一般的な学習済みモデルのベンチマークがどのように変化するかを評価するために、テストデータセット内の修正可能な(しかし元々は間違ったラベルの)データの割合をコントロールすることで、ノイズの有病率を段階的に増加させます。 この方法により、ベンチマークの順位が変化したテストセットごとに、ノイズの有病率を測定することができます。 例えば、ラベルを修正したImageNetでは、ResNet-18がResNetを上回りました。 例えば、ラベルを修正したImageNetでは、元々誤ったラベルを付けられたテスト例の割合が6%増加しただけで、ResNet-18はResNet-50を上回っています。

我々の貢献は以下の通りです。

  1. シンプルなアルゴリズムとクラウドソーシングを用いてラベル・エラーを識別・検証することで、ほとんどすべての機械学習研究で使用されている一般的なベンチマークのテスト・セットにラベル・エラーが蔓延していることを発見した。

  2. 2.各テストセットには、ラベルエラーの大部分が人間によって修正された、クリーンアップされた修正版を提供している3。将来、これらのベンチマークの研究では、元の誤ったラベルの代わりに、この改良されたテストデータが使用されることを期待しています。

  3. 3.テストセットのラベルエラーが蔓延していることの意味を分析した。しかし、これらのモデルは、補正されたラベルの精度(実際には気になるが、我々が提供する手動で補正されたテストデータがなければ測定できないもの)という点では、単純なモデルよりも劣ることがわかった。

  4. 4.一般的に使用されているベンチマークデータセットを用いたケーススタディでは、MLベンチマークを不安定にするために必要な、つまり低容量モデルが高容量モデルを上回るために必要な、元々誤ったラベルのテストデータの有病率を明らかにした。その結果、テストラベルの誤りの割合がわずかに増加しただけで、標準的なテスト精度に基づいて誤ったモデルが選択されてしまうことがわかりました。

この発見は、MLの実務者が、テストセットのラベルを修正して、モデルが実世界でどのように動作するかをベンチマークすることや、データセットのラベルが金標準のベンチマークデータセットのラベルよりもノイズが多い傾向にあるアプリケーションでは、より単純で小さいモデルを使用することが有益であることを示唆しています。 データセットがこの影響を受けるほどノイズが多いかどうかを確認する一つの方法は、少なくともテストセットのラベルを修正することである(例えば、我々の簡単なアプローチを使用する)。

e4exp commented 3 years ago

7 結論

従来、MLの実務者は、テストの精度に基づいてどのモデルを導入するかを選択していましたが、今回の結果は、特にノイズの多い実世界のデータセットにおいては、正しくラベル付けされたテストセットでモデルを判断する方が有用であることを示唆しています。 これは、ノイズの多い実世界のアプリケーションでは、元々のテストデータでの性能が悪くても、低容量のモデルが高容量のモデルを実際に上回っている可能性があることを示しています。 このギャップは、元々誤ったラベルが貼られたテストデータが多くなるほど大きくなります。 補正済みのテストとオリジナルのテストの精度の違いを認識し、予算の関係で質の低いトレーニングラベルになったとしても、高品質のテストラベルを最大限に活用するデータセットキュレーションを行うことが重要である。

この論文では、テストセットに蔓延するラベルエラーと、それがベンチマークの安定性に与える影響についての新しい知見を紹介していますが、高容量モデルと低容量モデルの見かけ上のオーバーフィットが、トレーニングセットのノイズに対するオーバーフィット、ハイパーパラメータチューニング時のバリデーションセットのノイズに対するオーバーフィット、テストラベルが補正されたときに発生するトレーニング/テストラベルの分布のずれに対する感度の高さのいずれによるものかについては言及していません。 直感的な仮説としては、容量の大きいモデルは、データに存在するすべての統計的パターンに、容量の小さいモデルでは近似できない系統的なラベルエラーに関連するパターンも含めて、より密接に適合するというものである。 これらの原因のそれぞれの寄与と、ベンチマークの安定性への影響を明確にし、理解するための厳密な分析は、当然の次のステップであり、今後の課題とします。 また、トレーニングデータとテストデータの間で、人間の再ラベル付けの予算をどのように配分するかについても、未解決の問題です。

e4exp commented 3 years ago

4 ベンチマークデータセットにおけるラベルエラーの識別

ここでは,クラウドソースによる人間の検証に先立って行われたアルゴリズムによるラベルエラーの識別についてまとめる. このセクションの主な貢献は、方法論ではなく、次のステップで人間の検証を必要とする例の数を大幅に(しばしば90%も)削減するためのフィルタリングプロセスとしての利用にあります。 n個の例とm個のクラスからなるテストデータセットのラベルエラーを識別するために、まず自信を持って学習する(CL)フレームワーク(Northcutt et al.2021)を用いてデータセットのラベルノイズを特徴付け、観測されたノイズラベルy〜と未知の真のラベルy∗のm×m離散共同分布であるQy,y〜∗を推定する。 Qy,y 〜 ∗ には、ノイズはクラス条件付きであり[Angluin and Laird, 1988]、データではなく潜在的な真のクラスにのみ依存するという仮定が内在しています。 この仮定は合理的であるため、一般的に使用されている[Goldberger and Ben-Reuven, 2017, Sukhbaatar et al. 例えば、ImageNetでは、fluteよりもtigerの方がcheetahと誤表示される可能性が高い。 行列Qy,y 〜 ∗ の対角線上のエントリpˆ(〜y=i, y∗=i)は、クラスiの例が正しくラベル付けされる確率である。 したがって、データセットに誤りがない場合、P i∈[m] pˆ(〜y=i, y∗=i) = 1となる。 ラベルエラーの割合はρ = 1 - P i∈[m] pˆ(˜y=i, y∗=i)であり、ラベルエラーの数はρ - nである。 ラベルエラーを見つけるために、正規化マージンで並べられた上位ρ - n例を選択する: pˆ(˜y=i; x, θ) - maxj neq=i pˆ(˜y=j; x, θ) [Wei et al., 2018]である。 表1は、10の人気MLベンチマークデータセットにおける各テストセットのCL推測ラベル問題の数を示しています。 Qy,y 〜 ∗ の信頼性の高い学習推定は、(Sec.A)の付録にまとめられている。

サンプル外予測確率の計算 CLノイズ特性評価のためのQy,y〜∗の推定には、各データセットに対して2つの入力が必要である。 (1)サンプル外予測確率Pˆk,i(n×m行列)と(2)テストセットのラベルy〜kである。 Pˆk,iを計算する際には、訓練セットで事前訓練を行い、テストセットでクロスバリデーションを用いてPˆk,iがサンプル外であることを確認した上で、(全ての層で)微調整を行うことで最良の結果が得られる。 事前学習したモデルがオープンソースで提供されている場合(例:ImageNet)は、自分で事前学習する代わりにそれを使用する。 データセットに明示的なテストセットがない場合(QuickDrawやAmazon Reviewsなど)は、事前学習を行わず、データセット全体のクロスバリデーションを用いてPˆk,iを算出する。 すべてのデータセットにおいて,最小限のハイパーパラメータの調整で妥当な精度が得られる一般的なモデルを試し,クロスバリデーションで最も高い精度が得られたモデルを使用した(表1参照).

この方法では、CLがラベルエラーの可能性を自動的に特定するため、テストセット全体を手作業でチェックすることなく、ラベルエラーを見つけることができます。

image

e4exp commented 3 years ago

5 ラベル・エラーの検証

アルゴリズムで特定されたラベル・エラーをMechanical Turkで検証した。 エラーの多い3つのデータセット(Caltech-256、QuickDraw、Amazon Reviews)については、ランダムなサンプルをチェックし、それ以外のデータセットについては、特定されたすべてのエラーをチェックした。 作業者に仮説となるエラーを提示し、例題の中で (1)与えられたラベル、 (2)CLで予測された上位のラベル、 (3)両方のラベル、 (4)どちらのラベルも見なかった かを尋ねた。 また,作業者の助けになるように,与えられたクラスとCLで予測されたクラスのトレーニングセットから抽出された信頼度の高い例を表示した. 図2は,Mechanical Turkのワーカーインターフェイスで,CIFAR-10データセットのデータポイントを示している. CLが識別した各ラベル・エラーは,5人のワーカーに独立して提示された. データポイントが与えられたラベルを持っていることに3人未満のワーカーが同意した場合(同意閾値=5人中3人)、その例は有効(「エラー」)とし、そうでない場合は「非エラー」(すなわち、元のラベルが正しかった)とした。 さらにラベルエラーを分類すると、 (1)CLが予測したラベルに過半数が同意する「修正可能」、 (2)両方のラベルが表示されることに過半数が同意する「複数ラベル」、 (3)どちらのラベルも表示されないことに過半数が同意する「どちらでもない」、 (4)過半数が存在しない場合の包括的なカテゴリーである「不同意」に分けられる。 結果を表2に,画像データセットから検証されたラベルエラーの例を図1に示す.

e4exp commented 3 years ago

6 テストデータのラベルエラーの影響

最後に、このように広まったテストセットのラベルエラーが、実際のアプリケーションにおけるMLの実践にどのような影響を与えるかを考えます。 議論を明確にするために,まず,いくつかの有用な用語を紹介する.

定義1(元の精度,A〜). 与えられたデータセットに対するモデルの予測ラベルの精度で、データセットに存在する元のラベルを基準に計算される。 これをテストセットで測定することは、今日、実務者がモデルを評価する標準的な方法である。

定義2(補正精度、A∗)。 モデルが予測したラベルの精度で、データセットの新しいバージョンを基準に計算されます。 モデルの評価においては、A〜よりもテストセットでの測定の方が望ましい(A〜は実際のアプリケーションでの性能を反映しているため)。

以下の定義において、"\"はセットの差分を表し、Dはテストデータセットを表し、B⊂DはCLがラベルエラーの可能性としてフラグを立てなかった良性のテスト例のサブセットを表す。

定義3 (unknown-label set, U). CL がフラグを立てたテスト例のうち、人間のラベラーが正しいラベルに合意できなかった部分集合(U ⊂ D\B)。 これには、人間のレビュアーが、複数のクラスや、どのクラスも適切でないと同意した例が含まれる。

定義 4 (pruned set, P)。 D から U を削除した後の残りのテストデータ(P = D\U)。

定義 5 (correctable set, C). CL フラグ付きの例のうち,人間による検証で,当初与えられたラベルとは異なるラベルで合意に達した部分集合(C = P\B).

定義 6 (ノイズ有病率, N). 刈り込まれたセットのうち、修正可能なセットを構成する割合、すなわち、オリジナルのベンチマークにおいて、明確な代替のグランドトゥルース・ラベルが割り当てられるべきであったにもかかわらず、誤ったラベルを受け取ったデータの割合である(人間が明確な代替を見つけることができなかったデータは無視する)。 ここでは、ノイズの有病率をN = |C| / |P|とした。

これらの定義は、B, C, Uが、D = B∪C∪U、P = B∪Cと離接していることを意味しています。 以降の実験では、C⊂Pのすべてのラベルを補正した後、Pに対する補正済みテスト精度を報告します。 したがって、本節で報告されているノイズ有病率は、それぞれのテストセットで元々見つかったラベルエラーの割合とは異なります。 今日のMLの大きな問題は,実際には元のテスト精度しか見ることができず,代わりに補正されたテスト精度に基づいてモデリングの決定を行うことが望ましいということです。 ここでは,このミスマッチがもたらす潜在的な影響について説明します。 テストセットのラベルエラーはどのような影響を及ぼすのでしょうか?

図3は、テストセットの代わりに一般的に使用されるImageNet検証セットにおける、PyTorchおよびKerasリポジトリの34の事前学習済みモデルのパフォーマンスを比較したものです。 図3aは、Rechtら[2019]の観察結果を裏付けています。 ベンチマークの結論は、修正されたテストセットを使用しても、つまり我々の場合はエラーを除去しても、ほとんど変わりません。

Cのテスト例のサブセットのみでモデルを評価した場合、元の(間違った)ラベルで最高の性能を発揮するモデルは、補正されたラベルでは最悪の性能を発揮する。 例えば、ResNet-18[He et al., 2016]は、元のテスト精度がはるかに悪いにもかかわらず、Cに対する修正精度ではNasNet[Zoph et al., 2018]を大きく上回っています。 ランキングの変化は劇的なものになります。 Nasnet-largeは順位1/34 → 29/34、Xceptionは順位2/34 → 24/34、ResNet-18は順位34/34 → 1/34、ResNet-50は順位20/24 → 2/24と増加しています(付録の表S1参照)。 例えば,VGG-11は,Cに対する補正精度の点でVGG-19 [Simonyan and Zisserman, 2014]を大幅に上回っている。 ただし,ここで報告されている数値はすべて,ホールドアウトされたテストデータのサブセットに対するものであり,古典的な意味でのオーバーフィットではない。

image

この現象は、図3bと図3cに描かれていますが、2つの重要な洞察を示していると思われます。 1)容量の小さいモデルは、予想外の正則化の効果をもたらし、ノイズの多いラベルの非対称な分布を学習することに耐性がある、 (2)時間の経過とともに、より最近の(大きい)モデルは、(元の)テスト精度に基づいて行われたアーキテクチャ/ハイパーパラメータの決定を行っている。

ラベルエラーのシステマティックなパターンを予測に取り込むことを学習することで,これらのモデルは元のテスト精度を向上させることができますが,これはML研究が目指すべき進歩ではありません。 Harutyunyanら[2020]、Arpitら[2017]は以前に(1)に似た現象を分析していますが、ここでは現在の実務で広く使われているモデル/データセットについて、この問題が本当に発生することを実証しています。 (2)は、古典的な意味ではなく(ラベルエラーのより良いモデル化によって元のテストの精度がさらに向上するため)、むしろ特定のベンチマーク(および元のラベルアノテーターの癖)に対するオーバーフィットであり、誤ったラベルに対する精度の向上が、展開されたMLシステムにおける優れた性能に結びつかない可能性があります。 この現象は、今回調査した高度に精査されたベンチマークデータよりもノイズが多い実世界のデータセットにおいて、実用上重要な意味を持ちます。 これらの比較的クリーンなベンチマークデータでは、すべてのテストラベルではなく、ラベルエラーの候補のサブセットのみを検証することができたため、ノイズの有病率は過小評価されています。 しかし、このギャップは、テストセットに含まれる(修正可能な)ラベルエラーが多いデータに比例して大きくなります。

一般的な学習済みモデルのベンチマークがどのように変化するかを評価するために、正しくラベル付けされた例をランダムに1つずつ削除していき、元の誤ったラベルのテストデータ(修正されたラベル付き)だけが残るようにします。 刈り込まれたベンチマークテストデータPの別バージョン(サブセット)を作成し、その中で、B(ラベルエラーがあると確認されなかったテスト例)の一部xをランダムに削除します。 これにより、結果として得られるテストデータセットのうち、修正可能なセットCの割合が効果的に増加し、ラベルエラーがより多く存在するアプリケーションにおいてテストセットがどのように機能するかを反映することができます。 良性のテスト例(B)の一部xをPから取り除くと、新しい(縮小された)テストデータセットにおけるノイズの有病率は、N = |C| / (|P|-x|B|)と推定される。 xを0から1まで変化させることで、|C|/|P|から1までの範囲のノイズ有病率をシミュレートすることができます。 補正されたテストセットでのベンチマーク精度(P, サブセットCの補正されたラベル)から、誤ってラベル付けされたサブセットでの精度(C, 補正されたラベル)に線形補間することで、すべての除去の選択に対する平均化を運用する。

与えられたモデルMに対して、縮小されたテストデータに対する結果としての精度(xの関数として)は、A(x;M) = AC(M)-|C|+(1-x)-AB(M)-|B| |C|+(1-x)-|B| で与えられる。 ここで、AC(M)とAB(M)は、それぞれ修正可能なセットと良性のセットに対する(オリジナルまたは修正された)精度(例を削除する前の精度)を表す。 ここで、AB = A∗ B = A〜Bは、Bに誤ったラベルが識別されなかったためです。 Bからランダムに削除された例のうち、どのような割合のxが削減されたテストセットを生成するかについて期待値を取ります。 ここでは,ラベルのないセットからランダムにテスト例を削除しているので,この縮小テストデータは,同様にラベルエラーが多いアプリケーションで使用されるテストセットを代表していると考えられる. なお、今回の分析では、ラベルが不明な修正不可能なデータ(U)は無視しています。 これは、このような不特定多数の例に対して、より良い精度を報告する方法が不明だからです。 図4-5は、ImageNet/CIFAR-10に含まれるノイズの程度を増やして作成した代替(縮小)テストセットについて、各代替テストセットで予想される元の(誤った)テストセットの精度とモデルの補正された精度を示しています。 与えられたテストセット(すなわち、これらのプロットのx軸に沿った点)に対して、線の垂直方向の順序は、このテストセットに対するオリジナルの精度または補正された精度に基づいて、モデルがどのように好まれるかを示しています。 当然のことながら、どのテストセット(ノイズの頻度が異なる)を考慮しても、元の精度に基づいて、より柔軟で新しいアーキテクチャが好まれる傾向にあることがわかります。 これは、NasNetのような強力なモデルがResNet-18のような単純なモデルよりも優れているという従来の予想と一致します。 しかし、補正後の精度に焦点を移すと、より強力なモデルがより単純なモデルよりも確実に優れているというわけではなくなります。 ラベルエラーが多いデータセットでは、(オリジナルの精度に基づいて)モデルを選択しても、実際には(補正後の精度の観点から)最適なモデルではない可能性が高くなります。 最後に、今回の分析は、これらの問題の大きさに関する緩やかな下限を示しているに過ぎないことに注意してください。 また、今回の分析では、人間が検証可能なラベル補正に限定しているため、実際に補正可能なセットの一部しか特定できませんでした(信頼性の高い学習によってアルゴリズム的に優先順位が付けられたデータ候補のサブセット)。 実際の修正可能なセットはもっと大きいと思われるため、今回のノイズ普及率の推定値は、高容量モデルに有利な楽観的なものとなっています。 そのため、ここで検討したゴールドスタンダードのベンチマークデータセットであっても、補正後の精度と元の精度との間の真のギャップはより大きく、実用上の重要性が高いと考えられます。 したがって、補正後の精度とオリジナルの精度の違いを認識し、慎重なデータキュレーションを行う必要があります。 例えば、テストデータのラベルの質を高めるために、アノテーション予算を多めに配分することも必要です。