Open soyamash opened 2 years ago
各サンプルに対するlabel memorizationスコアを以下のように定める。そのサンプルを訓練データから除いた場合のモデルの出力確率の下がり具合を示している。
また、訓練データ中の i によるテストデータ中の j への影響を以下のように定める。サンプル i を訓練データから除いた場合の j に対するモデルの出力確率の下がり具合を示している。
実際にこれをすべてのサンプルに対して計算するのは手間なので、 1< m << n の m 個のサブサンプルで学習したモデルを複数用意し、 i の上記式を求める際には m の中に i を含まないモデルの平均を使用する。
m = 0.7 · n、t = 2000 for ImageNet and t = 4000 for MNIST/CIFAR-100
label memorizationスコアが高いほど明らかに非典型的サンプルである。
非典型的サンプルを取り除くことで、ランダムに取り除いたときより精度が下がる
影響度の高い訓練・テストペアのヒストグラムは以下のようになり、明らかにロングテールである
非典型的サンプルに対して影響度の高いテストサンプルを見ると、明らかな影響が伺える
深層学習アルゴリズムは、学習データに対して非常によく適合する傾向があり、外れ値や誤ったラベルのデータポイントでもよく適合する。このような傾向のためには訓練データのラベルを記憶する必要がある。 Feldman(2019)によれば、自然の画像やデータの分布は(非公式に)ロングテールであることが知られており、かなりの割合で希少で非典型的な例が存在する。また、単純な理論モデルにおいてはデータ分布がロングテールである場合、最適に近い汎化誤差を得るためには、このような記憶が必要であると示されている。 本研究では、この理論の重要なアイデアを検証するための実験を行った https://arxiv.org/abs/2008.03703