Open dduo518 opened 4 years ago
感谢建议。
建议很好,确实可以通过since_id获取。这种方式有个缺点,就是需要手动指定since_id,这对于部分用户,使用起来可能不如since_date简单,因为since_date是日期,用户能自己定,since_id是微博id,需要用户手动获取。这种方式的优点是当前一次中断时,可以输入上一次最后一个id,接着上次的继续。这种方式作为辅助的方式应该是不错的。 目前程序,如果中断了,可以设置爬取的起始页,修改weibo.py的get_pages方法:
for page in tqdm(range(1, page_count + 1), desc='Progress'):
range后的大约个1就是起始页,把它替换成上一次中断的页面就可以。
如果还有问题欢迎继续讨论,再次感谢热心建议
感谢建议。
建议很好,确实可以通过since_id获取。这种方式有个缺点,就是需要手动指定since_id,这对于部分用户,使用起来可能不如since_date简单,因为since_date是日期,用户能自己定,since_id是微博id,需要用户手动获取。这种方式的优点是当前一次中断时,可以输入上一次最后一个id,接着上次的继续。这种方式作为辅助的方式应该是不错的。 目前程序,如果中断了,可以设置爬取的起始页,修改weibo.py的get_pages方法:
for page in tqdm(range(1, page_count + 1), desc='Progress'):
range后的大约个1就是起始页,把它替换成上一次中断的页面就可以。
如果还有问题欢迎继续讨论,再次感谢热心建议
这样的话也要从第一页开始获取列表,然后在特定页之后获取内容
感谢建议。
建议很好,确实可以通过since_id获取。这种方式有个缺点,就是需要手动指定since_id,这对于部分用户,使用起来可能不如since_date简单,因为since_date是日期,用户能自己定,since_id是微博id,需要用户手动获取。这种方式的优点是当前一次中断时,可以输入上一次最后一个id,接着上次的继续。这种方式作为辅助的方式应该是不错的。 目前程序,如果中断了,可以设置爬取的起始页,修改weibo.py的get_pages方法:
for page in tqdm(range(1, page_count + 1), desc='Progress'):
range后的大约个1就是起始页,把它替换成上一次中断的页面就可以。
如果还有问题欢迎继续讨论,再次感谢热心建议
一共有4500+页的数据,但是爬到第199页的时候显示
{
"ok": 0,
"msg": "这里还没有内容",
"data": {
"cards": []
}
}
感谢建议。 建议很好,确实可以通过since_id获取。这种方式有个缺点,就是需要手动指定since_id,这对于部分用户,使用起来可能不如since_date简单,因为since_date是日期,用户能自己定,since_id是微博id,需要用户手动获取。这种方式的优点是当前一次中断时,可以输入上一次最后一个id,接着上次的继续。这种方式作为辅助的方式应该是不错的。 目前程序,如果中断了,可以设置爬取的起始页,修改weibo.py的get_pages方法:
for page in tqdm(range(1, page_count + 1), desc='Progress'):
range后的大约个1就是起始页,把它替换成上一次中断的页面就可以。 如果还有问题欢迎继续讨论,再次感谢热心建议
这样的话也要从第一页开始获取列表,然后在特定页之后获取内容
默认是从第一页,但是你可以把range内的数字换成上一次中断时的页数,程序会从中断时的页数开始运行。
感谢建议。 建议很好,确实可以通过since_id获取。这种方式有个缺点,就是需要手动指定since_id,这对于部分用户,使用起来可能不如since_date简单,因为since_date是日期,用户能自己定,since_id是微博id,需要用户手动获取。这种方式的优点是当前一次中断时,可以输入上一次最后一个id,接着上次的继续。这种方式作为辅助的方式应该是不错的。 目前程序,如果中断了,可以设置爬取的起始页,修改weibo.py的get_pages方法:
for page in tqdm(range(1, page_count + 1), desc='Progress'):
range后的大约个1就是起始页,把它替换成上一次中断的页面就可以。 如果还有问题欢迎继续讨论,再次感谢热心建议
一共有4500+页的数据,但是爬到第199页的时候显示
{ "ok": 0, "msg": "这里还没有内容", "data": { "cards": [] } }
说明速度太快了,加上cookie会好点,或者增加sleep时间。
根据since_id开始爬的话不会由于各种原因中断之后又要从第一条开始爬 不会py 但是根据自己的需求改了下里面的方法 供参考
直接调用