Closed yemaobumei closed 6 years ago
你怎么操作的?是否有启动定时任务调度器?
docker-compose up启动 run.sh 内容
nohup python crawler_booter.py --usage crawler common > crawler.log 2>&1 & nohup python scheduler_booter.py --usage crawler common > crawler_scheduler.log 2>&1 & nohup python crawler_booter.py --usage validator init > init_validator.log 2>&1 & nohup python crawler_booter.py --usage validator https > https_validator.log 2>&1& nohup python scheduler_booter.py --usage validator https > validator_scheduler.log 2>&1 & nohup python squid_update.py --usage https --internal 3 > squid.log 2>&1 & rm -rf /var/run/squid.pid squid -N -d1
修改settings.py中的SPLASH_URL和REDIS_HOST参数 SPLASH_URL = 'http://splash:8050' REDIS_HOST = 'redis' 将rules.py task_queue为SPIDER_GFW_TASK和SPIDER_AJAX_GFW_TASK的任务enable属性设置为0 其他就没改了
用docker logs
看看日志,主要看看scrapy worker
是否在持续工作.
如果不好调试的话,建议直接跑在宿主机上看看,看看 scrapy 输出的日志是否会一直抓取
可能你得把logger
的相关代码都注释了,或者直接去logger看看有不有报错。
你截的这个图的信息看起来像是scrapy splash
的相关日志,看不出来什么。可能只有直接在宿主机上跑跑看
大概需要什么配置的服务器能跑这个项目
内存大于1G的linux服务器
这个是明确退出程序了吧。
看日志吧,logs
文件夹的日志,这个截图没法帮你定位问题
最好你先通过非Docker的方式跑一下,Docker这种方式后来有一些热心网友提了PR,但是我精力有限就没做严格测试,所以不确定是不是存在潜在问题。
您好,我在Ubuntu16.04系统下docker部署,运行正常。可是过了两天后,代理ip不更新一直稳定在400个。这是什么情况