striver-ing / wechat-spider

开源微信爬虫:爬取公众号所有 文章、阅读量、点赞量和评论内容。易部署。持续维护!!!
2.31k stars 587 forks source link

大佬,我这边部署好了,也跑了一两个月了,但是有个问题就是我每天都得手动点一下文章列表才能抓取 #30

Open mrchzh opened 3 years ago

mrchzh commented 3 years ago

大佬,我这边部署好了,也跑了一两个月了,但是有个问题就是我每天都得手动点一下文章列表才能抓取。 我的account_task最开始就已经配置好了的,但是把task里面的任务抓取完了之后,它就是一直变成休眠状态 “暂无任务 休眠 3600s 下次刷新时间 2020-12-05 12:19:32” 但实际上公众号已经有新推送了,它并没有去自动扫描到新文章。 比如昨天早上9点,我把所有的公众号点一遍,然后它就慢慢的把所有的文章都抓取过来,然后到今天了,公众号又有新的文章推送了,它是不是因该自动获取新的文章? `以下是我的配置文件,大佬帮忙看一下,是不是我的哪个操作有问题?求大佬帮忙解惑 [抱拳]

spider: monitor_interval: 3600 # 公众号扫描新发布文章周期时间间隔 单位秒 ignore_haved_crawl_today_article_account: true # 忽略已经抓取到今日发布文章的公众号,即今日不再监测该公众号 redis_task_cache_root_key: wechat # reids 中缓存任务的根key 如 wechat: zombie_account_not_publish_article_days: 90 # 连续90天未发布新文章,判定为僵尸账号,日后不再监控 spider_interval: min_sleep_time: 20 max_sleep_time: 80 no_task_sleep_time: 3600 # 当无任务时休眠时间 service_port: 8080 # 服务的端口 crawl_time_range: ~2020-09-20 00:00:00 # 近~远, 如 《crawl_time_range: 2019-07-10 00:00:00~2000-01-01 00:00:00》 # 抓取的时间范围 若不限制最近时间可写为 ~2000-07-01 00:00:00 若想抓取全部历史则不设置