boostcampaitech3 / level2-data-annotation_cv-level2-cv-09

level2-data-annotation_cv-level2-cv-09 created by GitHub Classroom
0 stars 4 forks source link

[Data] ICDAR2017 에서 ko, en, others 추출 #19

Open yoonghee opened 2 years ago

yoonghee commented 2 years ago

What?

ICDAR2017에서 영어가 포함된 데이터 셋 외에 Others를 커버 하도록 다른 언어도 포함

Why?

Kor, Eng외의 Test data에서의 언어 class는 소량 있지만 ex) 일본어, 아랍어, 중국어 이를 포함하기 위해

How?

convert_mlt.py의 50 line에 다른 언어 추가 (미정)

To Do

yoonghee commented 2 years ago

ICDAR2017 All Data • 9가지 언어: Chinese, Japanese, Korean, English, French, Arabic, Italian, German and Indian • 6가지 문자: "Arabic", "Latin", "Chinese", "Japanese", "Korean", "Bangla" + “symbols”, “mixed”

yoonghee commented 2 years ago

ICDAR2017 All Data • 9가지 언어: Chinese, Japanese, Korean, English, French, Arabic, Italian, German and Indian • 6가지 문자: "Arabic", "Latin", "Chinese", "Japanese", "Korean", "Bangla" + “symbols”, “mixed”

  • 모든 데이터 사용해서 테스트할 예정

image 대회 annotation 가이드에선 위와 같이 라벨링 해야 하는것으로 안내되어 있으나

image ICDAR17 9000장의 데이터를 분석해본 결과 위와 같이 Mixed로 라벨링 되어 있어 converted_mlt.py를 통해 데이터를 생성하면 others로 miss labeling되는 문제가 발생합니다.

가이드 내용처럼 ko+others와 같은 형식으로 라벨링을 할 수 있으면 좋겠지만 작업량 또는 방법의 문제로 Mixed가 들어가는 이미지를 제외처리하여 학습 데이터 셋으로 생성하였습니다.

ICDAR17_MIXEDPASS

yoonghee commented 2 years ago

-- 학습 결과 --

image