爬虫如何做计划任务?

owner888 / phpspider

《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言》所使用的程序

3.5k stars 1.18k forks source link

爬虫如何做计划任务? #37

Open zhangya4548 opened 7 years ago

zhangya4548 commented 7 years ago

爬虫写好了,一次就把网址数据爬完了,当时想用linux上计划任务实现每天定时爬取,发现再次执行时候会输出: Found that the data of Redis, no continue will empty Redis data start again Do you want to continue? [Y/n] 这样的选项,那我该怎么去做计划任务爬虫呢? 望告知谢谢!!

owner888 commented 7 years ago

把save_running_state设置为true就不会再提示你这个了，把要更新的url(比如最新列表)用add_scan_url添加，就不会被url去重给过滤掉

zhangya4548 commented 7 years ago

通过看你的源码我已经解决了,我的方式是设置了这几个参数. 'tasknum' => 1, 'multiserver' => false, 'save_running_state' => false, 另外你的爬虫设计的挺好,比我之前自己用phpquery写的爬虫强大很多很多,现在用你的爬虫程序,我可以把之前所有的爬虫都整合在呢你的程序中

owner888 commented 6 years ago

@zhangya4548 谢谢支持