dataabc / weibo-crawler

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
3.33k stars 744 forks source link

新版本仍然有部分微博用户出现爬取0条的问题 #301

Closed banlangen1111 closed 2 years ago

banlangen1111 commented 2 years ago

image

banlangen1111 commented 2 years ago

问题仍然出现在置顶微博的判断失效上

banlangen1111 commented 2 years ago

我参考上次提问过的这个问题的回答者haozewu可能是碰到了置顶微博 参考 https://github.com/dataabc/weibo-crawler/issues/289#issue-1213069764

仿照此修改正常模式下的置顶微博判断,但是可能是我代码修改不正确的原因,这个方法并不奏效

banlangen1111 commented 2 years ago

后来我找到了一种暂时避过这个问题的办法 总体思想是,先确定该置顶微博的日期,定义一个变量(比该日期小一天)定义一个变量top=0以标志这条置顶微博,当碰到置顶微博时(一般情况下置顶微博的发布时间会比爬取时间小,且此时top=1),此时将top修改为1,下一次判断是top已不为0,因此后面所有小于since_date的微博都不会再爬取

banlangen1111 commented 2 years ago

image

banlangen1111 commented 2 years ago

image

dididudu998 commented 2 years ago

后来我找到了一种暂时避过这个问题的办法 总体思想是,先确定该置顶微博的日期,定义一个变量(比该日期小一天)定义一个变量top=0以标志这条置顶微博,当碰到置顶微博时(一般情况下置顶微博的发布时间会比爬取时间小,且此时top=1),此时将top修改为1,下一次判断是top已不为0,因此后面所有小于since_date的微博都不会再爬取

这个方法不错。确实解决了问题。

gaelthas commented 2 years ago

有些用户有多条置顶微博 image

gaelthas commented 2 years ago

网页接口中看到有isTop字段,目前接口无数据,我改了新接口,已提交pr