mirror-look / mirror-look-origin

mirror-look-origin
0 stars 5 forks source link

210521 인공지능 오피스 아워 이슈 : dataset 분포 불균형 #37

Closed makeitmin closed 3 years ago

makeitmin commented 3 years ago

In GitLab by @Jaemin on May 21, 2021, 02:35

개발 시 어려운 점을 아래 리스트 중에 체크해주세요.

이슈 Label 해당 사항 체크(✅,❎)
전체적인 아이디어, 프로젝트 진행 방향성에 관한 이슈
To-do 기능 구현의 어려움
딥러닝 결과 해석의 어려움
버그
서버 이슈
속도 이슈
gitlab 이슈
그 외

<개발 이슈>

1. 개발 시 이슈가 무엇이었는지 예상 동작과 현재 동작에 대해 자세히 기입해주세요.

2. 이슈에 대한 원인을 기입해주세요.

3. 문제가 발생한 코드 및 스크린샷을 기입해주세요.

4. 이슈를 어떻게 고칠 것인지 자세히 설명해주세요. (해결 방법을 못 찾을 시, 5. 궁금한 점에 기입해주세요)

  1. 데이터 양이 많은 카테고리 수의 데이터를 줄이고, 적은 데이터 셋에 대해서 data agumentation
  2. 상대적으로 개수가 적은 데이터 셋에 대한 새로운 이미지 추가하기
  3. 상대적으로 개수가 적은 데이터 셋을 top 10 이미지 개수에 맞게 data agumentation
  4. 데이터 개수가 많은 top 10 카테고리의 데이터만 이용하기

5. 그 외 궁금한 점을 기입해주세요.

  1. 코치님께서 피드백 해주신 내용을 바탕으로 일단 epoch 10으로 학습을 진행하였습니다. (모델 서빙 테스트용)
  2. 앞서 제가 제시한 4가지 방법 중 좋은 방법이 있다면 알려주시면 감사하겠습니다. 만약 위 방법이 아닌 추천해주시고자 하는 방법이 있다면 알려주세요!
makeitmin commented 3 years ago

In GitLab by @hyoje on May 21, 2021, 20:28

  1. scikit-learn ㄴ confusion matrix, f1 score, classification report

https://scikit-learn.org/stable/modules/model_evaluation.html#precision-recall-f-measure-metrics

  1. 데이터 불균형 ㄴ oversampling, undersampling