dataabc / weibo-crawler

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
3.41k stars 761 forks source link

想请教一下如何限定翻页次数 #338

Closed Ghauster closed 1 year ago

Ghauster commented 1 year ago

我想要批量爬取众多博主的前几条微博而非全部微博,为此需要限定翻页次数,请问应该如何修改代码(小白求教)

因为部分博主可能最近的发帖时间在很久以前,另一些博主又非常活跃,设置since_date的方式也不太合适。在想能不能通过爬取的博文计数或者设置翻页次数来做。

如果是修改翻页次数的话,是不是把get_pages里的pages = range(self.start_page, page_count + 1)改成pages = range(self.start_page, self.start_page + 2 ),(翻页1次),再对应修改一下写入if page % 20 == 0: 就可以啦?

dataabc commented 1 year ago

修改pages这行就行,if的不用修。另外,这样写可能有bug,因为比如你想要前n页,pages改成了n+1,但是有的微博可能没有n页,应该加个判断,如果微博页数大于等于page_count,按上面的修改,如果小于,就按原来的。

Ghauster commented 1 year ago

非常感谢(抱歉回复迟了),找您说的修改代码成功实现了翻页次数限定