210521 인공지능 오피스 아워 이슈 : dataset 분포 불균형 - Githubissues

mirror-look / mirror-look-origin

mirror-look-origin

0 stars 5 forks source link

210521 인공지능 오피스 아워 이슈 : dataset 분포 불균형 #37

Closed makeitmin closed 3 years ago

makeitmin commented 3 years ago

In GitLab by @Jaemin on May 21, 2021, 02:35

개발 시 어려운 점을 아래 리스트 중에 체크해주세요.

이슈 Label	해당 사항 체크(✅,❎)
전체적인 아이디어, 프로젝트 진행 방향성에 관한 이슈
To-do 기능 구현의 어려움
딥러닝 결과 해석의 어려움
버그
서버 이슈
속도 이슈
gitlab 이슈
그 외	✅

이슈에 대한 자세한 설명 : dataset 분포 불균형

<개발 이슈>

1. 개발 시 이슈가 무엇이었는지 예상 동작과 현재 동작에 대해 자세히 기입해주세요.

학습 시키기 전에 코치님의 피드백을 받고 train, validation, test 데이터 셋에 대해 카테고리 별 데이터 분포를 시각화 했습니다. 이 때, train, validation, test 데이터 셋 각각의 분포는 비슷하지만 각각 데이터셋의 데이터 개수의 불균형이 심한 문제가 있습니다.

2. 이슈에 대한 원인을 기입해주세요.

이미지 데이터의 개수 불균형

3. 문제가 발생한 코드 및 스크린샷을 기입해주세요.

Train
Validation
Test

4. 이슈를 어떻게 고칠 것인지 자세히 설명해주세요. (해결 방법을 못 찾을 시, 5. 궁금한 점에 기입해주세요)

데이터 양이 많은 카테고리 수의 데이터를 줄이고, 적은 데이터 셋에 대해서 data agumentation
상대적으로 개수가 적은 데이터 셋에 대한 새로운 이미지 추가하기
상대적으로 개수가 적은 데이터 셋을 top 10 이미지 개수에 맞게 data agumentation
데이터 개수가 많은 top 10 카테고리의 데이터만 이용하기

5. 그 외 궁금한 점을 기입해주세요.

코치님께서 피드백 해주신 내용을 바탕으로 일단 epoch 10으로 학습을 진행하였습니다. (모델 서빙 테스트용)
앞서 제가 제시한 4가지 방법 중 좋은 방법이 있다면 알려주시면 감사하겠습니다. 만약 위 방법이 아닌 추천해주시고자 하는 방법이 있다면 알려주세요!

makeitmin commented 3 years ago

In GitLab by @hyoje on May 21, 2021, 20:28

scikit-learn ㄴ confusion matrix, f1 score, classification report

https://scikit-learn.org/stable/modules/model_evaluation.html#precision-recall-f-measure-metrics

데이터 불균형 ㄴ oversampling, undersampling