codershenghai / shenghaishxt.github.io

My Blog
1 stars 0 forks source link

利用TF-IDF的机器学习方法对搜狗新闻数据进行文本分类 | shenghai's blog | shxt #11

Open codershenghai opened 5 years ago

codershenghai commented 5 years ago

http://www.zhangshenghai.com/posts/28687/

这篇文章分为两个部分,第一部分是叙述TF-IDF的计算过程,第二部分是基于sklearn利用TF-IDF建立多种机器学习模型进行文本分类。其中文本分类使用的数据集来自搜狗实验室提供的新闻数据,使用的是其中完整版648MB的数据。 TF-IDF的计算过程TF-IDF(Term Frequency - Inverse Document Frequency)即词频-逆向文本频率,是一种用于信息检索和文本