crawlab-team / crawlab

Distributed web crawler admin platform for spiders management regardless of languages and frameworks. 分布式爬虫管理平台,支持任何语言和框架
https://www.crawlab.cn
BSD 3-Clause "New" or "Revised" License
11.39k stars 1.8k forks source link

数据存储 #827

Closed Bear-Kevin closed 4 years ago

Bear-Kevin commented 4 years ago

对于爬取到的数据,是否可以自己配置需要的数据库进行存储,目前非专业版中好像只能使用mongodb进行存储

zkqiang commented 4 years ago

是的,非专业版默认是使用 mongodb,可以将存储的逻辑直接写在爬虫里即可

Bear-Kevin commented 4 years ago

多谢指点,但是目前还在考虑是否采用这个平台,不知道您是否有其他推荐的,最好是python语言构建的,谢谢!

zkqiang commented 4 years ago

这个和管理平台关系不大,你完全可以自己使用 python 编写爬虫(包括存储数据库的部分),然后部署到 crawlab 来管理

Bear-Kevin commented 4 years ago

后期想基于这种现有的平台做一些修改,添加一些自定义的部分,所以在考虑是否选择其他平台

zkqiang commented 4 years ago

scrapyd+scrapydweb,不过只能用于scrapy编写的爬虫

Bear-Kevin commented 4 years ago

好的,我去详细了解一下,非常感谢!