boostcampaitech3 / level1-image-classification-level1-nlp-10

0 stars 4 forks source link

Test데이터 EDA 분포 볼 수 있는 양식 만들기 #18

Closed nonegom closed 2 years ago

nonegom commented 2 years ago

문제: Output 제출은 한정되어 있기 때문에 실험 결과를 간단하게 확인하고 싶더라도 제약이 있음

모델 Test 단계에 output.csv의 EDA 분포를 통해서 어느정도 맞췄는지 확인할 수 있을 것다고 생각한다. 예를 들어 노인이나 마스크 미착용 데이터의 경우 절대적인 개수가 제한적인데 해당 부분이 많이 나온다면 문제가 있을 것이라고 생각한다.

기원님께서 저번에 실험하셨던 결과를 토대로 같이 비교할 수 있지 않을까 생각 중

nonegom commented 2 years ago

Check_Output_csv.ipynb 파일 올렸습니다. 모델을 돌린 후 output.csv의 분포를 eval data의 분포와 확인할 수 있는 코드입니다.

image

다음과 같이 기원님이 돌리셨던 eval 데이터의 분포는 다음과 같습니다. 따라서 해당 분포와 우리 모델의 분포가 어느정도 일치한다면 좋은 성과를 기대할 수 있지 않을까 하는 가정에서 실시했습니다.

다음 이미지의 경우 f1score40점대를 받았던 제 모델의 결과와 67점을 받은 효은님 모델의 결과를 보여준 것입니다. (왼쪽이 eval_data값, 오른쪽이 model_예측값입니다.

image

효은님의 모델의 경우 분포가 가장 높은 0~4번까지의 label에서 꽤나 빈도가 높았지만, 제 모델은 그렇지 못했던 것으로 보여 f1score의 차이가 있음을 간단하게 볼 수 있었습니다. 따라서 해당 코드를 사용하면 다음과 같이 output의 결과를 어느정도 예측할 수 있지 않을까 생각합니다.

물론 해당 코드의 경우 실제 값과 비교를 하는 것이 아닌 '분포'를 보는 것이기 때문에 유의미한 결과를 도출하기에 무리가 있을 수는 있습니다. label 7이상인 경우가 7이하인 경우보다 분포가 높다든가 하는 경우처럼 아예 잘못된 예측 등을 직관적으로 확인하는데 사용할 수 있을 것으로 보입니다.