현재 제공되는 train dataset은 'ICDAR2017 Competition on Multi-lingual scene text detection and script identification'의 train, validation set 중 한국어와 영어만 뽑아낸 데이터셋이다.
성능 평가와 개선을 위해서는 validation set이 필수적이다.
12/08일 쯤 추가 데이터셋이 제공될 것이다. + 자체적으로 찾은 데이터셋을 활용할 수도 있다.
train과 validation set(또는 test set까지)을 나누는 확실한 기준이 필요하다.
Todo
ICDAR2017 데이터셋 내부 해결
[x] 서버에 이미 있는 UFO format을 기본으로 임의로 train/valid dataset 나누기
Overview
Todo
ICDAR2017 데이터셋 내부 해결
추가 데이터 셋을 고려한 split 기준 세우기
Additional Context