亲亲们，请问 - Githubissues

dataabc / weibo-crawler

新浪微博爬虫，用python爬取新浪微博数据，并下载微博图片和微博视频

3.25k stars 739 forks source link

Open Ascending111 opened 12 months ago

Ascending111 commented 12 months ago

不好意思，昨天没打完就误发了，打扰作者了。就是sincedate写日期的话，好像爬到1000条左右就结束运行了（离设定日期还早）；但是写整数的话，到1000多条也会停一会但是没结束运行，我又重新运行了一下，只能爬800多条就停止运行了。请问这是什么原因呢？

dataabc commented 12 months ago

？

Ascending111 commented 12 months ago

如果是爬取速度快了被限制的话，有没有什么方法设置一下，降低爬取速度的呢？

dataabc commented 12 months ago

可以添加cookie，也可以降低速度，您可以参考#71 。

Ascending111 commented 12 months ago

好的，我去试试，感谢

Ascending111 commented 12 months ago

程序在没有被限制的情况下应该能爬完满足设定日期内的数据吧？昨天不知道怎么回事就是爬到100页左右就停在那，也不是被限制的那种情况，或者就是直接爬几十页结束运行了。今天调了一下频率和等待时间，没有出现昨天的情况了，但是到200页应该是被限制了（如下图）。不知道昨天的那种情况算不算是bug

Ascending111 commented 12 months ago

程序在没有被限制的情况下应该能爬完满足设定日期内的数据吧？昨天不知道怎么回事就是爬到100页左右就停在那，也不是被限制的那种情况，或者就是直接爬几十页结束运行了。今天调了一下频率和等待时间，没有出现昨天的情况了，但是到200页应该是被限制了（如下图）。不知道昨天的那种情况算不算是bug

我又试了一下好像爬不到200页，不知道是怎么回事，一到200页就会出现这种情况。重新换个id搜，就可以正常搜索，但是也是再到200页就不行了。

dataabc commented 12 months ago

添加cookie就可以了。

Ascending111 commented 12 months ago

昨天我添加过cookie，但是获取不了200页以后得内容。今天很奇怪，已经获取到1500页了，不过中途会断掉，从断掉那页开始获取就好了，感谢作者