xiaobaiaixibai / Real-time-visualization-of-national-news

使用scrapy从全国六大较权威的新闻网站(澎湃新闻、新华网、新京报、凤 凰网、光明网、人民网)爬取最近15天内的新闻,利用爬取数据提取省份信息、计算新闻热点值、使用预训练模型生成新闻类别后存入Mysql数据库,网页使用HTML、CSS、JavaScript进行编写,采用开源的echarts对处理后的新闻内容进行可视化展示。展示分为以下5个方面: ① 时间新闻标题弹幕,展示最近新闻的标题 ② 最新新闻图谱,展示前10条最新新闻的标题 ③ 新闻热点地图,展现全国城市发生新闻的概况 ④ 省市关键字图谱,展示各个城市发生新闻的关键词 ⑤ 新闻分类占比饼状图,展示各个类别的新闻的占比。
22 stars 2 forks source link

有报错? #2

Open muyi137 opened 2 years ago

muyi137 commented 2 years ago

"C:\Program Files\Python310\python.exe" E:/www/yd/python/Real-time-visualization-of-national-news-main/xinhua/test.py Traceback (most recent call last): File "E:\www\yd\python\Real-time-visualization-of-national-news-main\xinhua\test.py", line 8, in from xinhua.spiders.guangmingspider import GuangmingspiderSpider File "E:\www\yd\python\Real-time-visualization-of-national-news-main\xinhua\xinhua\spiders\guangmingspider.py", line 4, in from scrapy_splash import SplashRequest ModuleNotFoundError: No module named 'scrapy_splash'

xiaobaiaixibai commented 2 years ago

有几个网站scrapy反爬有点问题,所以有些网站使用了splash进行爬取,可以将splash那段代码删除或者你可以去下载一个splash镜像,删除splash那段代码只是有些网站爬取信息会减少,不会导致其他问题

muyi137 commented 2 years ago

好了