parksunwoo / ocr_kor

딥러닝을 활용한 한글문장 OCR 연구
Apache License 2.0
217 stars 85 forks source link

학습 데이터를 긴 문장으로 하신 이유가 있으신가요? #12

Closed ranian963 closed 4 years ago

ranian963 commented 4 years ago

안녕하세요.

영어 OCR 같은 경우에 보통 단어 단위로 학습데이터를 많이 만들던데 단어 단위가 아닌 문장 단위로 학습데이터를 만드신 특별한 이유가 있을까요?

감사합니다.

parksunwoo commented 4 years ago

안녕하세요.

이슈 남겨주신걸 이제야 확인해서 이렇게 답변남깁니다. 제가 원래 해보고 싶었던건 문장단위를 넘어서 문서단위로 해보고싶었는데 문서단위를 시도해보기에 앞서 문장단위부터 시작해보고 그 결과를 이렇게 깃허브에 남기게되었습니다.

계약서나 회사에서 사용하는 서류들은 보통 문서단위라 실제 어플리케이션에서 ocr을 활용해보려면 문서단위가 필요해보여서요.