sese-engine是否完全遵守了robots协议以及配置.py里爬虫的名字是什么意思

RimoChan / sese-engine

【sese-engine】新时代的搜索引擎！

https://sese.yyj.moe

Other

602 stars 51 forks source link

sese-engine是否完全遵守了robots协议以及配置.py里爬虫的名字是什么意思 #38

Open mengguyi opened 1 year ago

mengguyi commented 1 year ago

我想问一下sese-engine是否完全遵守了robots协议我在https://sese.yyj.moe 上搜索bilibili时得到如下结果但是根据https://www.bilibili.com/robots.txt 来看，sese-engine里默认配置的loli_spider 显然不属于允许的UA 那么如果sese-engine完全遵守了robots协议，则不会爬到https://www.bilibili.com 所以是https://sese.yyj.moe 修改了爬虫的名字还是sese-engine不是完全遵守robots协议

另外大部中国分网站的robots.txt喜在文件末尾写上

User-agent: *
Disallow: /

所以如果我希望能和正常的搜索引擎一样爬取是否需要修改爬虫的名字

RimoChan commented 1 year ago

sese-engine实现上是尊重robots协议的，但是测试环境的爬虫的名字的确不是loli_spider……

mengguyi commented 1 year ago

哦明白了

mengguyi commented 1 year ago

所以我们能不能通过环境变量来控制爬虫的名字因为docker改代码很麻烦

mengguyi commented 1 year ago

所以我们能不能通过环境变量来控制爬虫的名字因为docker改代码很麻烦

RimoChan commented 1 year ago

如果用环境变量的话，那其他的配置怎么办？全部变成环境变量吗？

mengguyi commented 1 year ago

如果用环境变量的话，那其他的配置怎么办？全部变成环境变量吗？

其实如果可以，能不能把配置独立于配置.py。弄一个配置.json

mengguyi commented 1 year ago

那个，我运行的爬虫没改爬虫名，它也爬到B站了，这算不算bug

mengguyi commented 1 year ago

我用的https://github.com/mengguyi/sese-engine-docker

RimoChan commented 1 year ago

其实如果可以，能不能把配置独立于配置.py。弄一个配置.json

啊，配置.json和配置.py不一样吗？

mengguyi commented 1 year ago

不太一样，我的意思是配置.py里可以决定配置.json的位置，这样可以在用docker时不用为了改配置.py自己编译镜像

RimoChan commented 1 year ago

那个，我运行的爬虫没改爬虫名，它也爬到B站了，这算不算bug

应该是，怪耶。

但是我访问了一下你的域名，然后用不了，它说你的后端ssl有问题……

RimoChan commented 1 year ago

不太一样，我的意思是配置.py里可以决定配置.json的位置，这样可以在用docker时不用为了改配置.py自己编译镜像

啊，我以为docker的用法是大家自己进到里面去把文件改了然后再运行的2333

mengguyi commented 1 year ago

那个，我运行的爬虫没改爬虫名，它也爬到B站了，这算不算bug

应该是，怪耶。

但是我访问了一下你的域名，然后用不了，它说你的后端ssl有问题……

玄学，时不时能访问，服务器家里云

mengguyi commented 1 year ago

你等一会可能就好了

RimoChan commented 1 year ago

那个，我运行的爬虫没改爬虫名，它也爬到B站了，这算不算bug

我试了一下，默认配置下的确是不能访问B站的，真奇怪……

mengguyi commented 1 year ago

算了吧，能访问也不是坏事