Open yoonghee opened 2 years ago
ICDAR2017 All Data • 9가지 언어: Chinese, Japanese, Korean, English, French, Arabic, Italian, German and Indian • 6가지 문자: "Arabic", "Latin", "Chinese", "Japanese", "Korean", "Bangla" + “symbols”, “mixed”
ICDAR2017 All Data • 9가지 언어: Chinese, Japanese, Korean, English, French, Arabic, Italian, German and Indian • 6가지 문자: "Arabic", "Latin", "Chinese", "Japanese", "Korean", "Bangla" + “symbols”, “mixed”
- 모든 데이터 사용해서 테스트할 예정
대회 annotation 가이드에선 위와 같이 라벨링 해야 하는것으로 안내되어 있으나
ICDAR17 9000장의 데이터를 분석해본 결과 위와 같이 Mixed로 라벨링 되어 있어 converted_mlt.py를 통해 데이터를 생성하면 others로 miss labeling되는 문제가 발생합니다.
가이드 내용처럼 ko+others와 같은 형식으로 라벨링을 할 수 있으면 좋겠지만 작업량 또는 방법의 문제로 Mixed가 들어가는 이미지를 제외처리하여 학습 데이터 셋으로 생성하였습니다.
ICDAR17_MIXEDPASS
-- 학습 결과 --
What?
ICDAR2017에서 영어가 포함된 데이터 셋 외에 Others를 커버 하도록 다른 언어도 포함
Why?
Kor, Eng외의 Test data에서의 언어 class는 소량 있지만 ex) 일본어, 아랍어, 중국어 이를 포함하기 위해
How?
convert_mlt.py의 50 line에 다른 언어 추가 (미정)
To Do