SpiderClub / haipproxy

:sparkling_heart: High available distributed ip proxy pool, powerd by Scrapy and Redis
https://spiderclub.github.io/haipproxy/
MIT License
5.44k stars 912 forks source link

代理ip不更新 #54

Closed yemaobumei closed 6 years ago

yemaobumei commented 6 years ago

您好,我在Ubuntu16.04系统下docker部署,运行正常。可是过了两天后,代理ip不更新一直稳定在400个。这是什么情况

ResolveWang commented 6 years ago

你怎么操作的?是否有启动定时任务调度器?

yemaobumei commented 6 years ago

docker-compose up启动 run.sh 内容

!/bin/bash

nohup python crawler_booter.py --usage crawler common > crawler.log 2>&1 & nohup python scheduler_booter.py --usage crawler common > crawler_scheduler.log 2>&1 & nohup python crawler_booter.py --usage validator init > init_validator.log 2>&1 & nohup python crawler_booter.py --usage validator https > https_validator.log 2>&1& nohup python scheduler_booter.py --usage validator https > validator_scheduler.log 2>&1 & nohup python squid_update.py --usage https --internal 3 > squid.log 2>&1 & rm -rf /var/run/squid.pid squid -N -d1

yemaobumei commented 6 years ago

修改settings.py中的SPLASH_URL和REDIS_HOST参数 SPLASH_URL = 'http://splash:8050' REDIS_HOST = 'redis' 将rules.py task_queue为SPIDER_GFW_TASK和SPIDER_AJAX_GFW_TASK的任务enable属性设置为0 其他就没改了

ResolveWang commented 6 years ago

docker logs看看日志,主要看看scrapy worker是否在持续工作.

如果不好调试的话,建议直接跑在宿主机上看看,看看 scrapy 输出的日志是否会一直抓取

yemaobumei commented 6 years ago

image

ResolveWang commented 6 years ago

可能你得把logger的相关代码都注释了,或者直接去logger看看有不有报错。

你截的这个图的信息看起来像是scrapy splash的相关日志,看不出来什么。可能只有直接在宿主机上跑跑看

yemaobumei commented 6 years ago

大概需要什么配置的服务器能跑这个项目

ResolveWang commented 6 years ago

内存大于1G的linux服务器

yemaobumei commented 6 years ago

image 这个是明确退出程序了吧。

ResolveWang commented 6 years ago

看日志吧,logs文件夹的日志,这个截图没法帮你定位问题

最好你先通过非Docker的方式跑一下,Docker这种方式后来有一些热心网友提了PR,但是我精力有限就没做严格测试,所以不确定是不是存在潜在问题。