bab2min / tomotopy

Python package of Tomoto, the Topic Modeling Tool
https://bab2min.github.io/tomotopy
MIT License
548 stars 62 forks source link

새로운 문서에 대한 get_topic_words 또는 get_topic_word_dist #185

Open tkddnd0214 opened 1 year ago

tkddnd0214 commented 1 year ago

안녕하십니까 너무 자주 문의를 드려, 귀찮으실까 죄송스럽네요.

mdl.make_doc을 통한 새로운 문서 집합에 대해서도 mdl.get_topic_words 나 mdl.get_topic_word_dist 같은 결과물을 낼 수 있는지 문의드립니다.

※ 해당 함수들의 def 를 참고해보고 싶었는데 찾지를 못해서 def를 볼수 있다면 어디서 확인할 수 있는지도 문의드립니다.

답변 부탁드리겠습니다. 감사합니다.

bab2min commented 1 year ago

안녕하세요~ @tkddnd0214 mdl.get_topic_words는 토픽 모델 전체의 토픽-단어 분포를 가져오는 메소드입니다. make_doc으로 생성한 새로운 문서에 대해서 추론을 할 경우 토픽-단어 분포는 고정된 상태에서 각 문서별로 문서-토픽 분포를 추정하는 것입니다. (즉, 문서-단어 분포를 문서-토픽 분포와 토픽-단어 분포로 분해하는데 토픽-단어 분포는 고정된 상황) 따라서 애초에 새로운 문서 집합에 대해서는 문서-토픽 분포를 구해야하는 것이지 토픽-단어 분포를 구해야하는 것이 아닙니다. 그리고 새로운 문서에 대한 문서-토픽 분포는 기존 문서에 대한 문서-토픽 분포를 구할때와 마찬가지로 doc.get_topics() 혹은 doc.get_topic_dist()를 사용하시면 되겠습니다.

만약 새로운 문서 집합에 대해 토픽-단어 분포를 새로 학습하고 싶으신거라면 make_doc을 사용하실게 아니라 토픽 모델을 새로 생성하셔서 add_doc을 하는게 맞구요.