Open zihaolucky opened 11 years ago
这一块我们用文本相似度评价论坛的冗余 参考资料
这一块我们用文本相似度评价论坛的冗余
这里的资料均来自52nlp
这个话题,是作者在开发[课程图谱]()网站(目的通过对公开课的导航、推荐和点评等功能方便大家找到感兴趣的公开课)的时候遇到了如何为用户推荐课程的问题,并给出了以“课程相似度”为思路解决方案。
文中提到了一个Python工具包gensim(GitHub),并提到:
当前课程图谱中所有课程之间的相似度全部基于gensim计算,自己写的调用代码不到一百行,topic模型采用LSI(Latent semantic indexing, 中文译为浅层语义索引)
秉承学习的原则,我们有必要把这些资料都学习一下。以便更好地利用gensim。此文有以下几个知识点需要我们学习,在此列出来,方便大家。
TF-IDF,余弦相似度,向量空间模型
LSI is based on the principle that words that are used in the same contexts tend to have similar meanings.
在学习掌握了基础知识以后,文章介绍了gemsim工具箱的安装和使用。
这里的资料均来自52nlp
如何计算两个文档的相似度
这个话题,是作者在开发[课程图谱]()网站(目的通过对公开课的导航、推荐和点评等功能方便大家找到感兴趣的公开课)的时候遇到了如何为用户推荐课程的问题,并给出了以“课程相似度”为思路解决方案。
如何计算两个文档的相似度(一)
文中提到了一个Python工具包gensim(GitHub),并提到:
秉承学习的原则,我们有必要把这些资料都学习一下。以便更好地利用gensim。此文有以下几个知识点需要我们学习,在此列出来,方便大家。
TF-IDF,余弦相似度,向量空间模型
如何计算两个文档的相似度(二)
在学习掌握了基础知识以后,文章介绍了gemsim工具箱的安装和使用。