dataabc / weiboSpider

新浪微博爬虫,用python爬取新浪微博数据
8.37k stars 1.98k forks source link

数据集格式 #215

Closed angolin22 closed 3 years ago

angolin22 commented 4 years ago

请问能否这样收集数据吗? 数据集的格式是这样的:例如一个用户,要收集间隔一定时间(比如一天)的连续时间的数据,像以下: 时间 用户ID 地区 关注数 粉丝数 发博数 2020.8.29 1 北京 23 67 176 2020.8.30 1 北京 24 74 180 2020.8.31 1 北京 26 74 182 ..... 主要是追踪微博中在连续时间内一定间隔的动态数据(像关注数、粉丝数、发博数)。 同时收集的信息还有微博、用户关系等,这些信息也是连续时间间隔一定时间的。

dataabc commented 4 years ago

感谢反馈。

要收集间隔一定时间的数据可以使用crontab,要实现上面的格式需要修改代码,spider.py的get_user_info方法就是用来获取用户信息的,包含上面的信息:

self.user['id']:用户id;
self.user['nickname']:用户昵称;
self.user['gender']:用户性别;
self.user['location']:用户所在地;
self.user['birthday']:用户出生日期;
self.user['description']:用户简介;
self.user['verified_reason']:用户认证;
self.user['talent']:用户标签;
self.user['education']:用户学习经历;
self.user['work']:用户工作经历;
self.user['weibo_num']:微博数;
self.user['following']:关注数;
self.user['followers']:粉丝数;

你可以将每次获取的self.user写入一个csv文件。现在log文件中也有类似的形式,只是和你想要的格式不完全一样。

本项目是不能获取用户关系的,你可以使用weibo-follow,该项目可以获取指定用户所关注的用户。

感谢反馈,如果还有问题欢迎继续讨论

angolin22 commented 4 years ago

请问怎样才能抓取很多用户信息,并追踪已抓取用户的动态属性信息,像关注数、粉丝数等

dataabc commented 4 years ago

weibo-follow可以获得指定用户关注的用户,并写入txt文件,可以得到很多的user_id; 生成的txt正好可以使用本程序获取信息,config.json中的user_id_list参数填txt路径; 在执行spider.py的get_user_info后就得到了用户的信息,如关注数粉丝数,都存在self.user里,你可以按自己的想法保存这些信息; crontab可以设置让程序每隔一段时间自动执行。

angolin22 commented 4 years ago

crontab需要在Linux下用吗,Windows下行不行

dataabc commented 4 years ago

windows应该有吧,我搜索发现了一种方法利用cygwin创建windows下的crontab定时任务

angolin22 commented 4 years ago

好的谢谢,我尝试一下

stale[bot] commented 3 years ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.

stale[bot] commented 3 years ago

Closing as stale, please reopen if you'd like to work on this further.