vieyahn2017 / iBlog

44 stars 0 forks source link

10.21 爬虫例子--海航生态科技舆情大数据平台容器化改造 #368

Closed vieyahn2017 closed 3 months ago

vieyahn2017 commented 3 years ago

海航生态科技舆情大数据平台容器化改造

https://yq.aliyun.com/articles/184046

vieyahn2017 commented 3 years ago

舆情平台介绍 舆情平台项目的初衷是为了加强海航集团及其下属各成员企业的品牌效应,并且减少关键信息传播的成本,及时洞悉客户评价和舆论走向,以及指导舆论引导工作,加快对紧急事件的响应速度。

需要完成工作包括分析及预测敏感内容在互联网、社交网络等载体的传播状况,包括数据采集, 情感分析,爆发预测,敏感预警等

目前的规模:

微博类: 通过设置微博种子账户(一部分通过搜索,一部分是公司微博账号),挖掘粉丝的粉丝深层次挖掘,爬取数据每天信息条目目前有20w 左右,逐渐会加入更多 的种子账户,也在沟通购买新浪的开放API; 新闻、论坛、博客: 主流媒体30个; 大型论坛20个; 科技行业70个; 财经行业30个; 旅游行业33个; 航空行业30个;

其他如微信公众号、自媒体类,同行业票价网站等,一共300多家站点,数据维度达到30多个,每天数据量达150w条,数据量接近10G;

主要功能如下:

数据爬取: 每天定时计划爬取指定微博,新闻媒体最新发布信息,存储以供分析 数据存储:存储微博、新闻内容、图片等,以及中间分析结果、计算结果 微博舆情:统计分析、信息监测、信息检索 新闻舆情:统计分析、信息监测、信息检索 热词统计:高频度热词统计 情感分析:文本分析、根据文字内容定位情感倾向 舆情监测:根据指定敏感词进行信息过滤,并提供通知功能 数据接口服务:提供对外的Rest的API数据服务 热点事件梳理:提供检索,优先列出热度高的新闻、微博记录