sejongresearch / RecycleClassification

리사이클 팀, 재활 용품 분류기 (2019)
1 stars 2 forks source link

데이터 전처리 #21

Open 17011775 opened 5 years ago

17011775 commented 5 years ago

모델 성능 향상을 위해 이것저것 해봐도 정확도 향상에 한계가 있는것 같아 에러 데이터를 분석.총 679개의 validation data중 error난 217개를 분석해보니 Cardboard error : paper로 예측 = 20
glass로 예측 = 9 metal로 예측 = 7 plastic로 예측 = 3

Glass error : plastic로 예측 = 24 metal로 예측 = 18 paper로 예측 = 15 cardboard로 예측 = 4

Metal error : paper로 예측 = 13 glass로 예측 = 12 plastic으로 예측 = 6 cardboard로 예측 = 5

Paper error : cardboard로 예측 = 5
metal로 예측 = 5 glass로 예측 = 3 plastic으로 예측 = 1

Plastic error : glass로 예측 = 22 paper로 예측 = 20 metal로 예측 = 17 cardboard로 예측 = 5

   C   G     M    Pa   Pl                      

TP [ 95 112 80 118 60] FP [20, 45, 46, 68, 35] FN [39, 61, 36, 14, 64] TN [525, 461, 517, 479, 520]

validation data셋에서 배경이 검은색인 사진이 glass에서 3장, metal에서 1장 있었는데 전부 error 데이터에 포함되어 있음 --> training data랑 validation data중 검은배경인 사진 삭제할 예정

KakaoTalk_20190620_005431539 바다배경에 물따르는 상황

KakaoTalk_20190620_005431354 컵에 총알같은게 박혀있음

KakaoTalk_20190620_005431922 배경이 검은부분 흰부분 나누어져있음

KakaoTalk_20190620_005432053 아래에 객체가 거울에 비치는듯한 상이 있음

KakaoTalk_20190620_005431128 객체가 없음

KakaoTalk_20190620_005433118 KakaoTalk_20190620_005432745 비닐류 데이터셋은 모으기 힘들어서 안만들기로 했는데 plastic, paper 등 여기저기 들어가있음

위 사진들과 같이 부적절한 데이터들이 꽤 많아서 전처리를 통해 데이터셋을 다시 수정해야 함

KakaoTalk_20190620_013323754 한국 재활용 품목 기준을 보면 종이류에 종이박스가 포함되어 있음 Cardboard에서 가장 많이 에러난게 paper로 착각한거고 paper에서도 cardboard로 착각한 에러가 가장 많아서 paper 데이터셋과 cardboard 데이터셋을 합칠까 고민중