sangmandu / 2022-DCC

0 stars 1 forks source link

Under-sampling [ Random , Cluster , Nearmiss ] - 실험 내용 #24

Open git-ThLee opened 2 years ago

git-ThLee commented 2 years ago

ClusterCentroids 24 vs 64

이름 분류 f1 accuray loss
24 train 0.2585 25.8593 2.4157
24 valid 0.2864 26.6601 2.3382
64 train 0.2601 26.0156 2.4034
64 valid 0.2700 25.0976 2.3381

Nearmiss 24 vs 64

이름 분류 f1 accuray loss
24 train 0.33203 33.20312 2.0795
24 valid 0.37072 34.76562 1.8746
64 train 0.28906 28.90625 2.3457
64 valid 0.34183 31.83594 2.1984

ClusterCentroids vs Nearmiss

이름 분류 f1 accuray loss
cluster-24 train 0.2585 25.8593 2.4157
cluster-24 valid 0.2864 26.6601 2.3382
nearmiss-24 train 0.33203 33.20312 2.0795
nearmiss-24 valid 0.37072 34.76562 1.8746

Random 32 vs 64

이름 분류 f1 accuray loss
32 train 0.17318 17.31771 2.6785
32 valid 0.19512 15.75521 2.6725
64 train 0.12891 12.89062 2.8103
64 valid 0.14917 11.97917 2.7752

Nearmiss vs 일반(base)

이름 분류 f1 accuray loss
nearmiss-24 train 0.33203 33.20312 2.0795
nearmiss-24 valid 0.37072 34.76562 1.8746
일반(base) train 0.59845 59.84497 1.3788
일반(base) valid 0.67096 65.65755 1.1531

최종 결론

  1. 언더샘플링 기법 중 Nearmiss가 가장 좋음
  2. 언더샘플링이 없는게 더 좋음
sangmandu commented 2 years ago

언더샘플링 기준이 어떻게 되나요?

혹시, top3에 대해서만 언더샘플링을 적용해보셨을까요?