爬取长时间历史新闻

DemonDamon / Listed-company-news-crawl-and-text-analysis

从新浪财经、每经网、金融界、中国证券网、证券时报网上，爬取上市公司（个股）的历史新闻文本数据进行文本分析、提取特征集，然后利用SVM、随机森林等分类器进行训练，最后对实施抓取的新闻数据进行分类预测

MIT License

978 stars 261 forks source link

Closed AStupidBear closed 5 years ago

AStupidBear commented 5 years ago

请教一下，比如新浪，只能看到23页，更久的数据浏览器都不显示，更不用说爬。不知道您是怎么解决的？

DemonDamon commented 5 years ago

请教一下，比如新浪，只能看到23页，更久的数据浏览器都不显示，更不用说爬。不知道您是怎么解决的？

这个应该没法解决，服务端做了限制，爬取前提是有数据respond。