JiaxiangBU / tutoring2

The collection of Python and R code scripts to tutor others.
https://jiaxiangbu.github.io/tutoring2/
Other
8 stars 7 forks source link

文本相似比较 #38

Closed hehuanshu96 closed 4 years ago

hehuanshu96 commented 4 years ago

有两个文本,提取高频词汇对比,或者文本相似性对比。 类似教程么,多谢多谢李老师

JiaxiangBU commented 4 years ago

可以主要查看这个 notes https://jiaxiangbu.github.io/learn_nlp/analysis/text-mining-learning-notes.html

提取高频词汇对比

需要先分词,因此查看分词模块。 然后进行文本的 count 就好。

之后做文本相似性,算下皮尔森相关系数,我觉得可以简单计算一下了。 @hehuanshu96