bit2r / bitTA

기능이 bitNLP로 이관되었습니다. bitNLP를 사용하시기 바랍니다.
https://r2bit.com/bitNLP/
GNU General Public License v2.0
10 stars 0 forks source link

토크나이저 기능 추가 #8

Closed choonghyunryu closed 2 years ago

choonghyunryu commented 2 years ago

배경

  1. 교착어인 한글은 영어와 다른 특징을 가지고 있음. 그래서 텍스트 분석 프로세스를 영문 텍스트와 동일하게 가져갈 수 없음
  2. 한글 문서는 명사를 추출(tokenize)하고, 추출된 명사를 대상으로 n-gram으로 토큰을 추출(tokenize)해야 하는 경우가 많음

추가 기능 요구사항

  1. 명사를 토큰화한 것을 다시 명사로 이루어진 문서로 만들 필요가 있음
    • collapse noun
  2. 명사로 이루어진 문서를 n-gram 토큰화할 필요가 있음
    • unnest n-gram by noun
choonghyunryu commented 2 years ago

1.3.0.9001 버전에 구현