kakao / khaiii

Kakao Hangul Analyzer III
Apache License 2.0
1.4k stars 285 forks source link

원형복원사전 사용은 어떻게 하나요? #81

Closed kekmodel closed 4 years ago

kekmodel commented 4 years ago

학습과 추론은 형태소 분석 형태로 하되 추론 결과를 후처리하여 원형으로 복원할 목적으로 사용하고 싶습니다. api로 지원되는 부분이 있을까요?

krikit commented 4 years ago

원형복원 사전은 입력 음절이 활용이나 축약 등으로 인해 변형된 경우, 그 원형인 형태소 분석 결과를 복원하기 위해 내부적으로 사용하는 사전입니다. 이에 대한 자세한 내용은 CNN 모델 학습 과정 문서의 음절 단위 정렬 부분을 한번 살펴 보시기 바랍니다.

이 사전은 khaiii의 형태소 분석 과정에 내부적으로 사용되는 것으로, 파일 내용은 세종 코퍼스로부터 자동으로 획득됩니다. 말씀하시는 것처럼 API로 서비스할 성격의 파일이 아닐 것으로 생각합니다. 파일 내용은 khaiii를 내려받으시면 rsc/src/restore.dic 파일입니다. 아래는 그 일부분입니다.

했/I-VA:I-EP:0   하/I-VA 였/I-EP
했/I-VA:I-EP:1   하/I-VA 았/I-EP
했/I-VV:I-EP:0   하/I-VV 였/I-EP
했/I-VV:I-EP:1   하/I-VV 았/I-EP
했/I-VV:I-EP:2   하/I-VV 었/I-EP
했/I-VX:I-EP:0   하/I-VX 였/I-EP

한번 살펴보시고 말씀하시는 형태소 분석 후처리 목적과 맞는지 알려주시기 바랍니다.

kekmodel commented 4 years ago

감사합니다! 큰 도움이 됐습니다.