[idea] Custom Resource Definitation of distribured spider in Kubernetes

dyweb / mos

MOOC & Open Source Group

Apache License 2.0

18 stars 1 forks source link

Open gaocegege opened 6 years ago

gaocegege commented 6 years ago

利用 Kubernetes，应该可以很轻易地启动一个分布式爬虫任务。而如果将其实现成 crd 的方式，会变得非常 Kubernetes native，有更好的 scalability。可以基于 https://github.com/rmax/scrapy-redis 去尝试

skillset: 熟悉 Kubernetes，熟悉 scrapy，了解 redis

gaocegege commented 6 years ago

Crawler as a service :thinking:

xplorld commented 6 years ago

这样的 craweler service 允许用户不写代码仅仅写yaml就能开启分布式爬虫任务了？比如在yaml中可以指定transformation规则？

xplorld commented 6 years ago

:thinking:

gaocegege commented 6 years ago