-
## docker-compose部署crawlab
- 使用docker-compose.yml version: '3.3'
- CRAWLAB_MONGO_PORT: 27017 # MongoDB port MongoDB 的端口
- CRAWLAB_MONGO_DB: "crawlab_test" # MongoDB database MongoDB 的数据库
- CRAW…
-
![image](https://user-images.githubusercontent.com/43632943/71875859-5b80a380-3160-11ea-98ff-bed6562f6738.png)
公司前辈写的爬虫 类似设计使用 crawlab上传爬虫比较繁琐
建议加入多爬虫识别功能
-
**Bug 描述**
宿主和docker容器时间一致,但是定时任务执行却相差8个小时。
**复现步骤**
该 Bug 复现步骤如下
1. 宿主/etc/localtime 设置为上海时区,docker 容器 /etc/localtime 也设置为上海时区,平台定时任务执行设置为0点执行,实际却是8点执行。
2. 容器的时间设置后crawlab执行爬虫任务未生效。
3. 重启容器不能…
-
需要一目了然的看到那些爬虫在运行,哪些爬虫挂了(而不是上次运行的状态),如果在运行,展示有几个正常任务数。
监控进程状态。比如10分钟查询一次爬虫的进程状态,如果有任务异常退出或者爬虫异常退出,就通过钉钉机器人通知。这一步要可以设定通知等级。
爬虫状态栏,展示爬虫任务分布的节点,可能同一个爬虫在有些节点挂了,有些却没有。
-
pip安装crawlab后,在代码中引入
from crawlab import save_item
时报错,找不到这个方法,我到源码里看也没找着,请问这个方法现在是可用的吗
-
重启服务,文件列表中存在,亦能打开查看信息,但有报错。
![image](https://user-images.githubusercontent.com/50389867/71507029-0fab4000-28be-11ea-86c2-989d75c827f7.png)
develop branch.
-
(这可能是一个伪需求)
当前scrapy爬虫设计使用传参模式
单条任务运行命令 scrapy crawl spiderName -a param1=** param2=**
当大批量发布不同传参任务时会直接弃用crawlab
crawlab中的界面我认为是最友好的 所以想把更多操作通过crawlab来实现 感谢你们的付出
-
版本:0.4.7(最新的master也会存在这个问题)
文件路径: crawlab/backend/routes/spider.go
函数名称:UploadSpider
代码开始行数: 265
代码片段:
`if spider.Name == "" {
// 保存爬虫信息
srcPath := viper.GetString("spider.path")
spider …
-
【Issue】:当前crawlab在管理爬虫时不是很方便,如果一个项目里爬虫很多,想每个爬虫都单独保存,不用每次运行都通过传参方式启动不同爬虫的话就得挨个上传同一个项目到容器中不同的爬虫目录下,目前crawlab平台项目和爬虫的概念没有区分好,是把每一个项目看做一个爬虫来处理的,像scrapyd打包完一个egg上传之后,会自动识别文件里的多个爬虫。
【Suggestion】:新增一个项目的菜…
-
**Bug 描述**
当只在一个worker上单独安装npm,而master上没装,前端在worker节点上搜索npm包的时候就会返回500错误如下:
{"status":"ok","message":"unauthorized","data":null,"error":"unauthorized"}
**复现步骤**
该 Bug 复现步骤如下
1. 只在worker节点下安装NPM
…