boostcampaitech3 / level2-data-annotation_cv-level2-cv-17

[2022.04.14 ~ 2022.04.21] OCR Text Detection Competition - 부스트캠프 AI Tech 3기
1 stars 1 forks source link

[Data] Dataset Check #13

Closed hyoseok1223 closed 2 years ago

hyoseok1223 commented 2 years ago

Background

저희가 사용하기로 생각하고 있는 데이터셋은 여러가지가 있습니다.

  1. 추가 제공된 1300여장의 데이터
  2. AI HUB의 OCR관련 데이터셋 3가지
  3. ICDAR 다른 연도 데이터셋 지금 사용중인 17이 text detection기준으로는 최신 인 것 같아 굳이 이전 데이터셋을 쓸 필요는 없다고 생각하는데, 우연히 보게 된 글에서 ICDAR 2015와 함께 활용하는 것이 있어 고민해볼 수 있을 것 같습니다. image -> update : 2019, 2021도 활용가능할지도 모르겠습니다. 이 글을 참고해주세요 -> 도연님 comment 참고

도연님께서 확인해주신 결과(#12 )와 이전에 동우님이 말씀해주신 것을 바탕으로 볼 때 데이터셋의 양 증대가 생각보다 큰 영향을 미치고 있음을 확인할 수 있었습니다. 따라서, 추가적으로 데이터셋을 활용하고자 하는데 이 때 어떤 데이터셋을 활용하는 것이 좋을지를 dataset들을 살펴보면서 체크해보려고 합니다.

Content

  1. annotation 실습 결과물의 경우 Detection의 관점에서도 문제가 있는 경우가 많아 보여, mislabeling 체크를 직접 해볼 필요를 많이 느낀다. 물론 기존의 시각화 코드 상 문제가 있을 수도 있다고 생각하나, 제대로 나오는 것들이 함께 존재하는 것을 봤을 때, 데이터가 넘어오는 과정에서 혹은 annotation과정에서 문제가 있었을 수도 있을 것 같다는 생각이 든다. ( + 기존의 536장의 데이터셋에 대해서는 문제가 없이 작동함을 봤을 때, 이미지가 뒤집혀서 width와 height가 바뀌어서 제공되었다던가, annotatoin과정에서 문제가 있을 것 같다) image

  2. AI hub의 데이터셋의 경우 사용목적을 한국어 데이터의 보충에 초점을 두고자 한다. 어느정도의 품질이 보장된 한국어 데이터를 구하기 쉽지 않다는 측면에서 사용해도 좋을 것 같으나, 3가지 각각의 데이터셋이 초점을 두고 있는게 다르다.( 손글씨에만 초점을 맞춘것도 있고, 외부 간판 등에만 초점을 맞춘 것도 있고, 섞인 것도 있음) 또한 불편한 형식으로 제공되는 것도 있어, 우리의 task에 적합한 데이터셋을 잘 골라서 사용하면 될 것 같다. 이를 위해 데이터를 조금씩 살펴봐야 한다. 예를 들어, 우리에게 제공된 data들의 경향에 손글씨같은게 없다면 굳이 손글씨로만 제공되는 데이터셋을 이용할 필요가 없어보이는 등이 있다.

  3. 2번의 필요성 자체가 기존의 ICDAR데이터셋에서 한국어가 많지 않아서인데, 이를 위해서 기존의 ICDAR데이터셋의 한국어비중을 고려해볼 필요도 있어보인다.

  4. 또한, 기존의 ICDAR에 대해서 우리 task가 한국어, 영어 이외에는 보지 않고 있다는 점에서 이외의 언어의 데이터들을 넣는게 좋을지 안넣는게 좋을지 확실하지는 않지만, 비교를 해보기 위해서 넣은 상태와 안넣은 상태에서 학습을 각각 진행해 비교해볼 필요는 있다고 생각한다. 이를 위해서는 앞서 언급했던 이 글에 잘 정리되어있는 것 같아 참고해봐도 좋을 것 같다.

Details

그래서 구체적으로 해볼만한 것들은

hyoseok1223 commented 2 years ago

다만, 여기까지 3가지 데이터셋을 확인하면서 든 생각은 text in wild를 활용하는게 제일 좋아 보였고, 생각보다 데이터셋의 양이 너무 많아( 한국어 글자체의 경우 text in wild는 10만장, 야외 실제의 경우 45만장) 어느정도까지 사용해보는 것이 좋을지도 고민해봐야할 것 같고, 사용을 함에 있어서 신중해야할 것 같습니다. 이에 대해서는 추후에 같이 논의해봐도 좋을 것 같습니다

omocomo commented 2 years ago

ICDAR17과 ICDAR19

다음 사이트의 Challenges에서 ICDAR17_MLT, ICDAR19_MLT에 대한 설명과 데이터를 확인할 수 있습니다. 확인한 결과 19 데이터는 17 데이터에서 "Hindi" 언어가 추가되고 전체 데이터셋에 대한 gt 퀄리티를 높였다고 합니다. 결국 추가된 "Hindi" 언어 1000장을 제외한 9000장의 데이터는 ICDAR17에서 받은 데이터와 동일할 것으로 보입니다.

image

다만, gt 퀄리티를 높였다고 하니, 17 대신 19를 사용해 볼 수 있을 것 같습니다. 그리고 저는 21에는 MLT competition이 없는 것으로 파악했습니다.

(추가적으로 처음 제공받은 ICDAR17_Korean 데이터가 1000장이 아닌 536장인 이유가 궁금했는데 1000장 중 한국어와 영어 이외의 언어가 포함된 경우를 제외시켰기 때문이라고 생각했습니다.)

baekkr95 commented 2 years ago

사용할만한 AI hub 데이터셋의 경우 UFO 포맷으로 변환하는 코드 작성 이 부분을 4/18(월) 피어세션 전까지 해볼 예정입니다.

17