dyweb / mos

MOOC & Open Source Group
Apache License 2.0
18 stars 1 forks source link

[idea] Custom Resource Definitation of distribured spider in Kubernetes #29

Open gaocegege opened 6 years ago

gaocegege commented 6 years ago

利用 Kubernetes,应该可以很轻易地启动一个分布式爬虫任务。而如果将其实现成 crd 的方式,会变得非常 Kubernetes native,有更好的 scalability。可以基于 https://github.com/rmax/scrapy-redis 去尝试

skillset: 熟悉 Kubernetes,熟悉 scrapy,了解 redis

gaocegege commented 6 years ago

Crawler as a service :thinking:

xplorld commented 6 years ago

这样的 craweler service 允许用户不写代码仅仅写yaml就能开启分布式爬虫任务了?比如在yaml中可以指定transformation规则?

xplorld commented 6 years ago

:thinking:

gaocegege commented 6 years ago

yaml 里制定规则我觉得不太可行,毕竟不是图灵完备