DemonDamon / Listed-company-news-crawl-and-text-analysis

从新浪财经、每经网、金融界、中国证券网、证券时报网上,爬取上市公司(个股)的历史新闻文本数据进行文本分析、提取特征集,然后利用SVM、随机森林等分类器进行训练,最后对实施抓取的新闻数据进行分类预测
MIT License
950 stars 257 forks source link
machine-learning text-mining webcrawling

上市公司新闻文本分析与分类预测

image

Star History Chart


简介

上市公司新闻文本分析与分类预测的基本步骤如下:

开发环境Python-v3(3.6)

文本处理 -> text_processing.py

文本挖掘 -> text_mining.py

新闻爬取 -> crawler_cnstock.py, crawler_jrj.py, crawler_nbd.py, crawler_sina.py, crawler_stcn.py

Tushare数据提取 -> crawler_tushare.py

用法

更新目标

由于之前的项目代码是在初学Python的时候写的,很多写法都是入门级别,因此为了提高整体项目的质量,除了优化代码细节和已有的功能模块之外,还加入了多个功能模块,来支撑未来更加智能化和个性化的金融分析与交易。