Open HongzhangXie opened 1 year ago
程序中计算用户pages的算法为微博数/10。如果该用户5年每年发了2000条微博,且设置仅半年可见。按算法page number = 10000/10 = 1000页。但由于仅半年可见,实际页面数仅有100页。程序爬到100页后会自动尝试爬后续900页,造成时间浪费。建议可以检查每次爬取页面的内容,若连续为空页面,则爬取下一个用户。
另外还有个小问题,就是有时候爬着爬着就卡在那,不报错也不动。这个是微博限制导致的正常情况吗?
感谢
感谢建议。我现在不方便调试,过一段时间会考虑看是否加上您提的功能。卡住有两种可能情况,官方限制,这个暂停时间不确定,可能较长;程序有意为之,因为速度太快会被限制,不过这种每次只会在几十秒左右。
程序中计算用户pages的算法为微博数/10。如果该用户5年每年发了2000条微博,且设置仅半年可见。按算法page number = 10000/10 = 1000页。但由于仅半年可见,实际页面数仅有100页。程序爬到100页后会自动尝试爬后续900页,造成时间浪费。建议可以检查每次爬取页面的内容,若连续为空页面,则爬取下一个用户。
另外还有个小问题,就是有时候爬着爬着就卡在那,不报错也不动。这个是微博限制导致的正常情况吗?
感谢