zihaolucky / Undergraduate-Innovation-Program

SNS用户交互学习行为研究
45 stars 18 forks source link

文本相似度 #5

Open zihaolucky opened 11 years ago

zihaolucky commented 11 years ago

这一块我们用文本相似度评价论坛的冗余

参考资料

这里的资料均来自52nlp

如何计算两个文档的相似度

这个话题,是作者在开发[课程图谱]()网站(目的通过对公开课的导航、推荐和点评等功能方便大家找到感兴趣的公开课)的时候遇到了如何为用户推荐课程的问题,并给出了以“课程相似度”为思路解决方案。

如何计算两个文档的相似度(一)

文中提到了一个Python工具包gensim(GitHub),并提到:

当前课程图谱中所有课程之间的相似度全部基于gensim计算,自己写的调用代码不到一百行,topic模型采用LSI(Latent semantic indexing, 中文译为浅层语义索引)

秉承学习的原则,我们有必要把这些资料都学习一下。以便更好地利用gensim。此文有以下几个知识点需要我们学习,在此列出来,方便大家。

  1. TF-IDF,余弦相似度,向量空间模型

    LSI is based on the principle that words that are used in the same contexts tend to have similar meanings.

  2. SVD和LSI
  3. LDA

    如何计算两个文档的相似度(二)

在学习掌握了基础知识以后,文章介绍了gemsim工具箱的安装和使用。