dataabc / weibo-crawler

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
3.25k stars 739 forks source link

亲亲们,请问 #390

Open Ascending111 opened 12 months ago

Ascending111 commented 12 months ago

不好意思,昨天没打完就误发了,打扰作者了。就是sincedate写日期的话,好像爬到1000条左右就结束运行了(离设定日期还早);但是写整数的话,到1000多条也会停一会但是没结束运行,我又重新运行了一下,只能爬800多条就停止运行了。请问这是什么原因呢?

dataabc commented 12 months ago

Ascending111 commented 12 months ago

如果是爬取速度快了被限制的话,有没有什么方法设置一下,降低爬取速度的呢?

dataabc commented 12 months ago

可以添加cookie,也可以降低速度,您可以参考#71 。

Ascending111 commented 12 months ago

好的,我去试试,感谢

Ascending111 commented 12 months ago

程序在没有被限制的情况下应该能爬完满足设定日期内的数据吧?昨天不知道怎么回事就是爬到100页左右就停在那,也不是被限制的那种情况,或者就是直接爬几十页结束运行了。 今天调了一下频率和等待时间,没有出现昨天的情况了,但是到200页应该是被限制了(如下图)。不知道昨天的那种情况算不算是bug image

Ascending111 commented 12 months ago

程序在没有被限制的情况下应该能爬完满足设定日期内的数据吧?昨天不知道怎么回事就是爬到100页左右就停在那,也不是被限制的那种情况,或者就是直接爬几十页结束运行了。 今天调了一下频率和等待时间,没有出现昨天的情况了,但是到200页应该是被限制了(如下图)。不知道昨天的那种情况算不算是bug image

我又试了一下好像爬不到200页,不知道是怎么回事,一到200页就会出现这种情况。重新换个id搜,就可以正常搜索,但是也是再到200页就不行了。 image

dataabc commented 12 months ago

添加cookie就可以了。

Ascending111 commented 12 months ago

昨天我添加过cookie,但是获取不了200页以后得内容。今天很奇怪,已经获取到1500页了,不过中途会断掉,从断掉那页开始获取就好了,感谢作者