Closed shin285 closed 5 years ago
다음과 같이 macOS, Python 3.6, PyKOMORAN 0.1.3에서 재현됩니다.
>>> komoran.get_plain_text("핳")
'핳/NA'
>>> komoran.get_plain_text("안녕 핳")
'안녕/NNG 핳/NA'
>>> komoran.get_plain_text("핳 안녕")
'ㅎㅏㅎ/NA 안녕/NNG'
>>> komoran.get_plain_text("안녕 핳 안녕")
'안녕/NNG ㅎㅏㅎ/NA 안녕/NNG'
>>>
해당 이슈는 KOMORAN에서 발생하는 이슈로 확인되었습니다. KOMORAN으로 이관하겠습니다.
문제 설명
분석불능범주(NA)로 태깅되는 형태소들이 자소 단위로 쪼개져서 출력되는 문제
재현 경로
동일한 문제를 어떻게 하면 재현할 수 있나요? "샤인웨어에서 캡틴마블을 단체로 관람하였다"를 LIGHT 버전으로 get_plain_text() 분석 시 발생
기대 상황
"샤인웨어에서"가 NA로 태깅되더라도 자소 단위로 분리되어서는 안됨
환경 정보