dataabc / weibo-crawler

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
3.25k stars 739 forks source link

爬取设置仅半年可见的微博用户 #374

Open HongzhangXie opened 1 year ago

HongzhangXie commented 1 year ago

程序中计算用户pages的算法为微博数/10。如果该用户5年每年发了2000条微博,且设置仅半年可见。按算法page number = 10000/10 = 1000页。但由于仅半年可见,实际页面数仅有100页。程序爬到100页后会自动尝试爬后续900页,造成时间浪费。建议可以检查每次爬取页面的内容,若连续为空页面,则爬取下一个用户。

另外还有个小问题,就是有时候爬着爬着就卡在那,不报错也不动。这个是微博限制导致的正常情况吗?

感谢

dataabc commented 1 year ago

感谢建议。我现在不方便调试,过一段时间会考虑看是否加上您提的功能。卡住有两种可能情况,官方限制,这个暂停时间不确定,可能较长;程序有意为之,因为速度太快会被限制,不过这种每次只会在几十秒左右。