bit2r / bitTA

기능이 bitNLP로 이관되었습니다. bitNLP를 사용하시기 바랍니다.
https://r2bit.com/bitNLP/
GNU General Public License v2.0
10 stars 0 forks source link

내장 데이터셋 sentiment_dic의 중복 데이터 2건 존재 #26

Closed choonghyunryu closed 2 years ago

choonghyunryu commented 2 years ago

내장 데이터셋인 NU Korean Sentiment Dictionary(sentiment_dic)에서 중복 데이터 2건 존재하는 것을 발견함

choonghyunryu commented 2 years ago

다음과 같이 중복을 제거하는 로직을 넣어 데이터를 생성하는 스크립트 개발

library(dplyr)

fname_sentiword <- here::here("inst", "data", "KnuSentiLex", "SentiWord_info.json")

sentiment_dic <- jsonlite::fromJSON(fname_sentiword) %>% 
  filter(!duplicated(word)) %>%     # 중복 제거 로직
  mutate(n_gram = stringr::str_count(word, pattern = "\\s+") + 1L) %>%
  mutate(polarity = as.integer(polarity)) %>%
  tibble::as_tibble()

save(sentiment_dic, file = glue::glue("data/sentiment_dic.rda"))