Open gaocegege opened 6 years ago
利用 Kubernetes,应该可以很轻易地启动一个分布式爬虫任务。而如果将其实现成 crd 的方式,会变得非常 Kubernetes native,有更好的 scalability。可以基于 https://github.com/rmax/scrapy-redis 去尝试
skillset: 熟悉 Kubernetes,熟悉 scrapy,了解 redis
Crawler as a service :thinking:
这样的 craweler service 允许用户不写代码仅仅写yaml就能开启分布式爬虫任务了?比如在yaml中可以指定transformation规则?
:thinking:
yaml 里制定规则我觉得不太可行,毕竟不是图灵完备
利用 Kubernetes,应该可以很轻易地启动一个分布式爬虫任务。而如果将其实现成 crd 的方式,会变得非常 Kubernetes native,有更好的 scalability。可以基于 https://github.com/rmax/scrapy-redis 去尝试
skillset: 熟悉 Kubernetes,熟悉 scrapy,了解 redis