lqqyt2423 / wechat_spider

微信爬虫,获取文章内容、阅读量、点赞量、评论等,获取公众号所有历史文章链接。
MIT License
1.41k stars 349 forks source link

自动翻页爬取过程中加载停止,需手动刷新 #33

Closed ritou11 closed 5 years ago

ritou11 commented 5 years ago

在自动翻页爬取的过程中,有时会出现文章加载进度条缓慢、无法加载的情况,这时只能手动刷新。这对于爬取大量文章是致命的,请问owner是否有相关解决方案可以分享?

52Lau commented 5 years ago

我这遇到的是一直重复几篇文章,很难受

lqqyt2423 commented 5 years ago

无更好的解决方案。我想到的一个方法是可以监测数据库的入库频率,有异常通知出来,然后还是需要人工手动刷新,不过就是不需要实时关注。

ritou11 commented 5 years ago

嗯嗯,一个思路是用appium来操作手机,hyfand/wechat_spider做了类似的扩展工作。但是看上去比较麻烦了,目前的方案已经足够优雅。