lovit / soynlp

한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다.
Other
945 stars 183 forks source link

soynlp.normalizer의 repeat_normalize에 문제가 있는 것 같습니다. #108

Closed seunghyukcho closed 4 years ago

seunghyukcho commented 4 years ago

안녕하세요. repeat_normalize를 사용하던 중에 문제가 발생하여 문의드립니다.

다음 코드를 실행하면 원래 'ㅋㅋ'이 나와야 하지만, 'ㅋㅋㅋ'이 그대로 출력됩니다.

다른 글자들도 마찬가지입니다.

from soynlp.normalizer import *

repeat_normalize('ㅋㅋㅋ', num_repeats=2)  # ㅋㅋㅋ
repeat_normalize('ㅋㅋㅋㅋ', num_repeats=2)  # ㅋㅋ 
repeat_normalize('www', num_repeats=2)  # www
repeat_normalize('wwww', num_repeats=2) # ww
lovit commented 4 years ago

레포팅 해주신 문제가 재현됨을 확인하였습니다. 3글자 이하일 경우에 해당 문제가 발생하는 것으로 예상됩니다. 해당 문제 수정하겠습니다.

lovit commented 4 years ago

해당 이슈 PR #109 을 통하여 해결하였습니다.

현재 패키지 리펙토링을 계획하고 있어서 pypi 등록을 따로 하지는 않았습니다. github 에서 git clone 하신 뒤 python setup.py install 로 설치해 주시기 바랍니다.

레포팅해주셔서 감사합니다.