사용자 사전을 통해 기호 &을 포함하는 단어 인식이 되지 않습니다.

moveslike15 commented 4 years ago

문제 설명

사용자 사전을 통해서 기호를 포함하는 단어를 인식시키려고 했는데 작동을 하지 않습니다. "R&D"나 "M&A"처럼 기호 &를 포함하고 있는 명사들을 인식시키려고 했는데 인식을 못하고 R, D, M, A, &로 분리해서 인식됩니다.

어떻게 하면 동일한 문제가 계속 발생하나요? 저는 utf-8로 된 userdic.txt 파일을 만들고 이것을 메모장 혹은 엑셀로 편집하여 R&D\tNNG M&A\tNNG 같은 식으로 입력하였습니다. 그 다음 문서 파일을 토큰화하였습니다.

위와 같이 사용자 사전에 입력한 대로 R&D, M&A 등 기호로 연결된 문자들이 하나의 단어로 인식되어야 한다고 생각합니다.

어떤 환경에서 이 문제가 발생하였나요?

스크린샷이나 에러 로그 등, 추가 정보가 있다면 남겨주세요.

shin285 commented 4 years ago

혹시 사용자 사전에 다른 단어들을 넣었을때는 정상적으로 인식하나요?

moveslike15 commented 4 years ago

예 다른 단어들은 정상적으로 동작합니다.

shin285 commented 4 years ago

konlpy의 이슈로 보입니다. KOMORAN에서는 정상적으로 동작하고 있네요. python이 필요하신 상황이라면 https://github.com/shineware/PyKOMORAN 사용을 추천드립니다:)

moveslike15 commented 4 years ago

확인해주셔서 감사합니다. Komoran이 제대로 작동할 수 있도록 다른 방식으로 한번 코드를 만들어 보겠습니다.

gamamoe commented 4 years ago

KOMORAN 이슈가 아니므로 티켓 클로즈 합니다.