What Neural Networks Memorize and Why: Discovering the Long Tail via Influence Estimation

soyamash / read_paper

memo for NLP paper

0 stars 0 forks source link

What Neural Networks Memorize and Why: Discovering the Long Tail via Influence Estimation #7

Open soyamash opened 2 years ago

soyamash commented 2 years ago

深層学習アルゴリズムは、学習データに対して非常によく適合する傾向があり、外れ値や誤ったラベルのデータポイントでもよく適合する。このような傾向のためには訓練データのラベルを記憶する必要がある。 Feldman（2019）によれば、自然の画像やデータの分布は（非公式に）ロングテールであることが知られており、かなりの割合で希少で非典型的な例が存在する。また、単純な理論モデルにおいてはデータ分布がロングテールである場合、最適に近い汎化誤差を得るためには、このような記憶が必要であると示されている。本研究では、この理論の重要なアイデアを検証するための実験を行った https://arxiv.org/abs/2008.03703

soyamash commented 2 years ago

各サンプルに対するlabel memorizationスコアを以下のように定める。そのサンプルを訓練データから除いた場合のモデルの出力確率の下がり具合を示している。