boostcampaitech3 / level2-data-annotation_cv-level2-cv-09

level2-data-annotation_cv-level2-cv-09 created by GitHub Classroom
0 stars 4 forks source link

[Discussion] Validation #11

Open km9mn opened 2 years ago

km9mn commented 2 years ago

What?

Why?

Todo

km9mn commented 2 years ago

제공된 train dataset 536장 추가할 dataset으로 학습 후 제공된 train dataset으로 validaiton?

tjrudrnr2 commented 2 years ago

네이버에서 수집한 데이터다 보니까 train data가 test data랑 가장 비슷할 것 같아서 train dataset이 학습에 일부분 포함되는 것도 고려해보면 좋을 것 같아요

km9mn commented 2 years ago

현재 baseline 코드에는 validation 코드가 없어서 코드 수정 필요함

yoonghee commented 2 years ago

현재 제공된 train dataset 536장은 EDA결과 및 육안으로 확인시에도 대부분이 영어인것으로 확인되고 영어가 있더라도 본문이 아니라 거진 sub 문자로 사용되는것으로 보입니다.

제공된 ICDAR 17의 kor - train dataset 536장 외에 ICDAR 17 train_set 총 9000장 중 Kor 1000장, Eng 1000장을 모두 사용해보는건 어떨까요?

이렇게 할 경우 8:2로 Kor & Eng 800장을 train으로 사용, Kor & Eng 200장을 val로 사용할 수 있을 것 같습니다.