Open mengguyi opened 1 year ago
sese-engine实现上是尊重robots协议的,但是测试环境的爬虫的名字的确不是loli_spider……
哦明白了
所以我们能不能通过环境变量来控制爬虫的名字
因为docker改代码很麻烦
所以我们能不能通过环境变量来控制爬虫的名字
因为docker改代码很麻烦
如果用环境变量的话,那其他的配置怎么办?全部变成环境变量吗?
如果用环境变量的话,那其他的配置怎么办?全部变成环境变量吗?
其实如果可以,能不能把配置独立于配置.py。弄一个配置.json
那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug
我用的https://github.com/mengguyi/sese-engine-docker
其实如果可以,能不能把配置独立于配置.py。弄一个配置.json
啊,配置.json和配置.py不一样吗?
不太一样,我的意思是配置.py里可以决定配置.json的位置,这样可以在用docker时不用为了改配置.py
自己编译镜像
那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug
应该是,怪耶。
但是我访问了一下你的域名,然后用不了,它说你的后端ssl有问题……
不太一样,我的意思是配置.py里可以决定配置.json的位置,这样可以在用docker时不用为了改
配置.py
自己编译镜像
啊,我以为docker的用法是大家自己进到里面去把文件改了然后再运行的2333
那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug
应该是,怪耶。
但是我访问了一下你的域名,然后用不了,它说你的后端ssl有问题……
玄学,时不时能访问,服务器家里云
你等一会可能就好了
那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug
我试了一下,默认配置下的确是不能访问B站的,真奇怪……
算了吧,能访问也不是坏事
我想问一下sese-engine是否完全遵守了robots协议 我在https://sese.yyj.moe 上搜索
bilibili
时得到如下结果 但是根据https://www.bilibili.com/robots.txt 来看,sese-engine里默认配置的loli_spider
显然不属于允许的UA 那么如果sese-engine完全遵守了robots协议,则不会爬到https://www.bilibili.com 所以是https://sese.yyj.moe 修改了爬虫的名字
还是sese-engine不是完全遵守robots协议另外 大部中国分网站的
robots.txt
喜在文件末尾写上所以如果我希望能和正常的搜索引擎一样爬取是否需要修改 爬虫的名字