불용어 리스트 관련 논의

aiclaudev commented 2 years ago

불용어 리스트 관련 논의

전체 문서에 대해 CountVect 이후 상위 n개의 단어를 불용어 리스트로 관리
다른 사람이 정의해놓은 불용어 리스트 사용 https://deep.chulgil.me/hangugeo-bulyongeo-riseuteu/
다른 의견 😄

do-genie commented 2 years ago

관련 논문

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 https://koreascience.kr/article/CFKO201725864428447.pdf

aiclaudev commented 2 years ago

관련 논문

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 https://koreascience.kr/article/CFKO201725864428447.pdf

헉 죄송합니다 이슈에 의견 다신거 이제야 봤네요.. 알아본 자료 정리하고 저도 의견 남기겠습니다~

aiclaudev commented 2 years ago

불용어 한번 뽑아봤습니다. 기존 계획대로는 사이킷런 CountVectorizer로 단순 Count하고 빈도수 높은것부터 뽑아보려고 했는데 토크나이저를 Soynlp로 하다보니 못했네요. 원리는 어차피 똑같아서, soynlp로 토큰화 한 뒤에 Count하고 빈도수 높은것부터 뽑아봤습니다. 빈도수 몇개까지를 불용어로 쓸지는 생각해봐야겠네요. 파일명 옆에 m-n은, 빈도수가 높은것부터 m-n번째라는 의미입니다.

stop_word0~100.txt stop_word100~200.txt stop_word200~300.txt

aiclaudev / FindMyMate

불용어 리스트 관련 논의 #1

불용어 리스트 관련 논의

관련 논문

관련 논문