soyamash / read_paper

memo for NLP paper
0 stars 0 forks source link

What Neural Networks Memorize and Why: Discovering the Long Tail via Influence Estimation #7

Open soyamash opened 2 years ago

soyamash commented 2 years ago

深層学習アルゴリズムは、学習データに対して非常によく適合する傾向があり、外れ値や誤ったラベルのデータポイントでもよく適合する。このような傾向のためには訓練データのラベルを記憶する必要がある。 Feldman(2019)によれば、自然の画像やデータの分布は(非公式に)ロングテールであることが知られており、かなりの割合で希少で非典型的な例が存在する。また、単純な理論モデルにおいてはデータ分布がロングテールである場合、最適に近い汎化誤差を得るためには、このような記憶が必要であると示されている。 本研究では、この理論の重要なアイデアを検証するための実験を行った https://arxiv.org/abs/2008.03703

soyamash commented 2 years ago

各サンプルに対するlabel memorizationスコアを以下のように定める。そのサンプルを訓練データから除いた場合のモデルの出力確率の下がり具合を示している。

スクリーンショット 2021-07-22 16 57 51
soyamash commented 2 years ago

また、訓練データ中の i によるテストデータ中の j への影響を以下のように定める。サンプル i を訓練データから除いた場合の j に対するモデルの出力確率の下がり具合を示している。

スクリーンショット 2021-07-22 17 10 53
soyamash commented 2 years ago

実際にこれをすべてのサンプルに対して計算するのは手間なので、 1< m << n の m 個のサブサンプルで学習したモデルを複数用意し、 i の上記式を求める際には m の中に i を含まないモデルの平均を使用する。

スクリーンショット 2021-07-25 14 09 21

m = 0.7 · n、t = 2000 for ImageNet and t = 4000 for MNIST/CIFAR-100

soyamash commented 2 years ago

label memorizationスコアが高いほど明らかに非典型的サンプルである。

スクリーンショット 2021-07-25 14 33 17

非典型的サンプルを取り除くことで、ランダムに取り除いたときより精度が下がる

スクリーンショット 2021-07-25 14 34 13
soyamash commented 2 years ago

影響度の高い訓練・テストペアのヒストグラムは以下のようになり、明らかにロングテールである

スクリーンショット 2021-07-25 14 38 49

非典型的サンプルに対して影響度の高いテストサンプルを見ると、明らかな影響が伺える

スクリーンショット 2021-07-25 14 39 47