shineware / PyKOMORAN

(Beta) PyKOMORAN is wrapped KOMORAN in Python using Py4J.
https://pydocs.komoran.kr
Apache License 2.0
42 stars 5 forks source link

NA로 태깅되는 결과가 자소 단위로 분리되어 출력되는 버그 #23

Closed shin285 closed 5 years ago

shin285 commented 5 years ago

문제 설명

분석불능범주(NA)로 태깅되는 형태소들이 자소 단위로 쪼개져서 출력되는 문제

재현 경로

동일한 문제를 어떻게 하면 재현할 수 있나요? "샤인웨어에서 캡틴마블을 단체로 관람하였다"를 LIGHT 버전으로 get_plain_text() 분석 시 발생

기대 상황

"샤인웨어에서"가 NA로 태깅되더라도 자소 단위로 분리되어서는 안됨

환경 정보

9bow commented 5 years ago

다음과 같이 macOS, Python 3.6, PyKOMORAN 0.1.3에서 재현됩니다.

>>> komoran.get_plain_text("핳")
'핳/NA'
>>> komoran.get_plain_text("안녕 핳")
'안녕/NNG 핳/NA'
>>> komoran.get_plain_text("핳 안녕")
'ㅎㅏㅎ/NA 안녕/NNG'
>>> komoran.get_plain_text("안녕 핳 안녕")
'안녕/NNG ㅎㅏㅎ/NA 안녕/NNG'
>>>
shin285 commented 5 years ago

해당 이슈는 KOMORAN에서 발생하는 이슈로 확인되었습니다. KOMORAN으로 이관하겠습니다.