haven-jeon / PyKoSpacing

Automatic Korean word spacing with Python
GNU General Public License v3.0
397 stars 118 forks source link

입력 최대 길이가 존재할까요? (maximum input size) #32

Closed eat-toast closed 2 years ago

eat-toast commented 2 years ago

입력 데이터 길이에 제한이 있을까요?

"언제교정이되는거지 " 라는 문장을 넣으면 --> 언제 교정이 되는거지 라고 잘 교정을 해줍니다.

그런데 길이가 길어지면 처리를 잘 못하는 현상이 있어서요 예를들어,

from pykospacing import Spacing
spacing_model = Spacing()
spacing_model('''언제교정이되는거지 언제교정이되는거지 언제교정이되는거지 언제교정이되는거지
              언제교정이되는거지 언제교정이되는거지 언제교정이되는거지 언제교정이되는거지''')

결과

'언제 교정이 되는 거지 언제 교정이 되는 거지 언제교정이 되는 거지 언제교정이 되는 거지 언제 교정이 되는 거지 언제교정이 되는 거지 언제교정이 되는 거지 언제교정이 되는 거지'

같은 문장이지만 교정의 결과가 2가지로 나옵니다.

  1. '언제 교정이 되는 거지 '
  2. '언제교정이 되는 거지'
haven-jeon commented 2 years ago

https://github.com/haven-jeon/PyKoSpacing/blob/f2febf985f256f4ebf169f4f78a765fef715d2cb/pykospacing/kospacing.py#L91

보시면 최대길이 198을 모델에 한정하기 위해 임의로 중간을 쪼개서 인퍼런스를 하게 됩니다. 물론 이렇게 되면 사용자들은 입력 길이에 신경쓰지 않고 사용이 가능합니다만, 경계에서 다소간의 오류가 발생할 수 있습니다.

eat-toast commented 2 years ago

상세한 설명 감사합니다!!