boostcampaitech3 / level2-data-annotation_cv-level2-cv-17

[2022.04.14 ~ 2022.04.21] OCR Text Detection Competition - 부스트캠프 AI Tech 3기
1 stars 1 forks source link

[feat] Evaluation metric & Wandb logging [refactor] train.py & sweep.py #15

Closed Dongwoo-Im closed 2 years ago

Dongwoo-Im commented 2 years ago

What is this PR?

Changes

To reviewers

Dongwoo-Im commented 2 years ago

경륜님이 말씀해주신대로, do_inference를 사용하는 과정에서 에러가 있었고, 에러 원인은 gif format으로 확인되었습니다.

  1. dataset.py 처럼 PIL Image로 읽는 경우 문제가 되지는 않았던 것 같은데,
  2. inference.pydo_inference 처럼 opencv로 읽는 경우 문제가 생기는 구조임을 확인하였습니다.
  3. https://code-examples.net/ko/q/9cb1ab 글을 보면서 변환이 잘 되지 않던데 굳이 변환할 필요가 있을까 고민하게 되었고, ICDAR17 전체 9000장 중 4장만 gif format인 것을 확인하여 지우기로 결정했습니다.
Dongwoo-Im commented 2 years ago

추가적으로 userwarning이 발생하는 것도 png extension의 transparent 속성이 원인으로 보입니다. 전체 9000장 30장만 해당되어 지워도 무방할 것 같은데, 일단 코드는 돌아가니 냅두었습니다.

Dongwoo-Im commented 2 years ago

del_extension.py

from utils import delete_image, update_json

def main(json_dir = '/opt/ml/input/data/ICDAR17_ALL/ufo/train.json',
         image_dir = '/opt/ml/input/data/ICDAR17_ALL/images'):

    delete_image(json_dir, image_dir, extension='gif')
    update_json(json_dir, extension='gif')

if __name__ == '__main__':
    main()
Dongwoo-Im commented 2 years ago

추가적으로 위에서 언급한 png는 지웠습니다! 그리고 지금까지 파악된 내용들을 반영하여 commit을 마쳤습니다. (evaluation metric 산식 수정 포함)

seonahmin commented 2 years ago

확인하였습니다! 다만 sweep 에서 hmean이 maximize되게 바꾼 것 같은데 hmean이 무엇인가요?혹시 말씀해주셨었나여..ㅎㅎ..제가 기억을 못하는 것일슈도..ㅠ

hyoseok1223 commented 2 years ago

확인하였습니다! 다만 sweep 에서 hmean이 maximize되게 바꾼 것 같은데 hmean이 무엇인가요?혹시 말씀해주셨었나여..ㅎㅎ..제가 기억을 못하는 것일슈도..ㅠ

precision과 recall의 harmony mean으로 DetEval의 final score입니다