Open aiclaudev opened 2 years ago
토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 https://koreascience.kr/article/CFKO201725864428447.pdf
관련 논문
토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 https://koreascience.kr/article/CFKO201725864428447.pdf
헉 죄송합니다 이슈에 의견 다신거 이제야 봤네요.. 알아본 자료 정리하고 저도 의견 남기겠습니다~
불용어 한번 뽑아봤습니다. 기존 계획대로는 사이킷런 CountVectorizer로 단순 Count하고 빈도수 높은것부터 뽑아보려고 했는데 토크나이저를 Soynlp로 하다보니 못했네요. 원리는 어차피 똑같아서, soynlp로 토큰화 한 뒤에 Count하고 빈도수 높은것부터 뽑아봤습니다. 빈도수 몇개까지를 불용어로 쓸지는 생각해봐야겠네요. 파일명 옆에 m-n은, 빈도수가 높은것부터 m-n번째라는 의미입니다.
stop_word0~100.txt stop_word100~200.txt stop_word200~300.txt
불용어 리스트 관련 논의