issues
search
bit2r
/
bitTA
기능이 bitNLP로 이관되었습니다. bitNLP를 사용하시기 바랍니다.
https://r2bit.com/bitNLP/
GNU General Public License v2.0
10
stars
0
forks
source link
토크나이저 기능 추가
#8
Closed
choonghyunryu
closed
2 years ago
choonghyunryu
commented
2 years ago
배경
교착어인 한글은 영어와 다른 특징을 가지고 있음. 그래서 텍스트 분석 프로세스를 영문 텍스트와 동일하게 가져갈 수 없음
한글 문서는 명사를 추출(tokenize)하고, 추출된 명사를 대상으로 n-gram으로 토큰을 추출(tokenize)해야 하는 경우가 많음
추가 기능 요구사항
명사를 토큰화한 것을 다시 명사로 이루어진 문서로 만들 필요가 있음
collapse noun
명사로 이루어진 문서를 n-gram 토큰화할 필요가 있음
unnest n-gram by noun
choonghyunryu
commented
2 years ago
1.3.0.9001 버전에 구현
명사를 토큰화한 것을 다시 명사로 이루어진 문서로 만드는 기능
collapse_noun()
명사로 이루어진 문서를 n-gram 토큰화하는 기능
tokenize_noun_ngrams()
배경
추가 기능 요구사항