czy1999 / weibo-topic-spider

微博超级话题爬虫,微博词频统计+情感分析+简单分类,新增肺炎超话爬取数据
MIT License
269 stars 65 forks source link

有关爬取消息数量的问题 #19

Closed shuyansy closed 3 years ago

shuyansy commented 4 years ago

想问下爬取超话时发现一般只能爬几百条就停了如何让爬取的数量多些呢

czy1999 commented 4 years ago

不同微博话题的爬取数量不同,一般来说通过人工翻页能查看到的微博数据 程序都可以爬取下来。 爬取话题过少的话有以下原因:

  1. 该话题微博数量本身就少
  2. IP请求频繁,可以更换网络重试
  3. 未登陆或账号频繁,可以换个账号重试
  4. 程序maxWeibo设置过小
shuyansy commented 4 years ago

明白了,感谢您的回复!

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: czy1999 <notifications@github.com> 发送时间: 2020年5月28日 07:56 收件人: czy1999/weibo-topic-spider <weibo-topic-spider@noreply.github.com> 抄送: sy11111 <570533048@qq.com>, Author <author@noreply.github.com> 主题: 回复:[czy1999/weibo-topic-spider] 有关爬取消息数量的问题 (#19)

不同微博话题的爬取数量不同,一般来说通过人工翻页能查看到的微博数据 程序都可以爬取下来。 爬取话题过少的话有以下原因:

该话题微博数量本身就少

IP请求频繁,可以更换网络重试

未登陆或账号频繁,可以换个账号重试

程序maxWeibo设置过小

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

shuyansy commented 4 years ago

还有一个问题想请教您,比如我想爬某个话题的时间段,这个我可以实现嘛

------------------ 原始邮件 ------------------ 发件人: "czy1999"<notifications@github.com>; 发送时间: 2020年5月28日(星期四) 上午7:56 收件人: "czy1999/weibo-topic-spider"<weibo-topic-spider@noreply.github.com>; 抄送: "小熊维尼"<570533048@qq.com>;"Author"<author@noreply.github.com>; 主题: Re: [czy1999/weibo-topic-spider] 有关爬取消息数量的问题 (#19)

不同微博话题的爬取数量不同,一般来说通过人工翻页能查看到的微博数据 程序都可以爬取下来。 爬取话题过少的话有以下原因:

该话题微博数量本身就少

IP请求频繁,可以更换网络重试

未登陆或账号频繁,可以换个账号重试

程序maxWeibo设置过小

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

shuyansy commented 4 years ago

请问我可以人为翻页以后再爬嘛

------------------ 原始邮件 ------------------ 发件人: "czy1999"<notifications@github.com>; 发送时间: 2020年5月28日(星期四) 上午7:56 收件人: "czy1999/weibo-topic-spider"<weibo-topic-spider@noreply.github.com>; 抄送: "小熊维尼"<570533048@qq.com>;"Author"<author@noreply.github.com>; 主题: Re: [czy1999/weibo-topic-spider] 有关爬取消息数量的问题 (#19)

不同微博话题的爬取数量不同,一般来说通过人工翻页能查看到的微博数据 程序都可以爬取下来。 爬取话题过少的话有以下原因:

该话题微博数量本身就少

IP请求频繁,可以更换网络重试

未登陆或账号频繁,可以换个账号重试

程序maxWeibo设置过小

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.

czy1999 commented 4 years ago

web端微博没有提供日期筛选功能,无法直接爬取爬某个时间段,但是程序爬取的数据中包含发布时间,可以爬取结束之后自行筛选时间段(excel or python)