bit2r / bitTA

기능이 bitNLP로 이관되었습니다. bitNLP를 사용하시기 바랍니다.
https://r2bit.com/bitNLP/
GNU General Public License v2.0
10 stars 0 forks source link

tidytext 패키지와의 협업을 위한 제반 요소 추가 #10

Closed choonghyunryu closed 2 years ago

choonghyunryu commented 2 years ago

배경

기존의 bitTA 패키지는 tidytext 패키지가 대중화되기 전에 틀이 잡혀졌었으나, 최근 tidy스러운 작업의 대중화로 인한 tidytext 패키지가 텍스트 분석의 표준으로 잡리를 잡아가는 바, tidytext 패키지와 협업을 추진해야 함

추가 기능 요소

  1. 앞으로 개발할 tokenizer는 tidytext 스럽게 개발해야 함
    • 한글 형태소분석의 결과에서 명사에 대한 n-grams 기능 추가
    • tokenize_noun_ngrams() 신규 개발
  2. tibble 객체에 token을 붙힐 수 있는 unnest_* 함수 개발의 필요성
    • 한글 형태소분석의 결과에서 명사에 대한 n-grams 결과를 붙히는 함수 개발
    • unnest_noun_ngrams() 신규 개발
    • unnest_words()는 tidytext 패키지 함수를 사용하면 됨
  3. bitTA의 장점인 parallel processing과 사용자 사전 추가 기능은 그대로 상속하여 개발
choonghyunryu commented 2 years ago

1.3.0.9001 버전에서 개발 완료