team-irc / tchatong

트위치 채팅 분석 서비스
MIT License
5 stars 3 forks source link

[BUG] 자주 쓰인 단어에 "하다"가 통계에 잡힙니다. #124

Closed AMATEURTOSS closed 6 months ago

AMATEURTOSS commented 2 years ago

버그를 설명해주세요 아무리 봐도 "하다"라는 단어가 자주 쓰일만한 단어가 아닌데도 불구하고, 대부분의 스트리머들의 자주 쓰인 단어 통계에 잡힙니다. 확인이 필요합니다.

AMATEURTOSS commented 2 years ago

예를들어 "~ 하면됨"이라는 문장을 okt.pos를 돌렸을 때 [~, ('하다', 'Verb'), ('되다', 'Verb')] 로 분석이 됩니다. 그래서 의도치 않은 단어들이 통계에 잡히는 문제가 있는데 그럴 바에야 그냥 content.split(" ")으로 통계를 내는건 어떤가 싶습니다.