RimoChan / sese-engine

【sese-engine】新时代的搜索引擎!
https://sese.yyj.moe
Other
602 stars 51 forks source link

sese-engine是否完全遵守了robots协议以及配置.py里爬虫的名字是什么意思 #38

Open mengguyi opened 1 year ago

mengguyi commented 1 year ago

我想问一下sese-engine是否完全遵守了robots协议 我在https://sese.yyj.moe 上搜索bilibili时得到如下结果 image 但是根据https://www.bilibili.com/robots.txt 来看,sese-engine里默认配置的loli_spider 显然不属于允许的UA 那么如果sese-engine完全遵守了robots协议,则不会爬到https://www.bilibili.com 所以是https://sese.yyj.moe 修改了爬虫的名字还是sese-engine不是完全遵守robots协议

另外 大部中国分网站的robots.txt喜在文件末尾写上

User-agent: *
Disallow: /

所以如果我希望能和正常的搜索引擎一样爬取是否需要修改 爬虫的名字

RimoChan commented 1 year ago

sese-engine实现上是尊重robots协议的,但是测试环境的爬虫的名字的确不是loli_spider……

mengguyi commented 1 year ago

哦明白了

mengguyi commented 1 year ago

所以我们能不能通过环境变量来控制爬虫的名字因为docker改代码很麻烦

mengguyi commented 1 year ago

所以我们能不能通过环境变量来控制爬虫的名字因为docker改代码很麻烦

RimoChan commented 1 year ago

如果用环境变量的话,那其他的配置怎么办?全部变成环境变量吗?

mengguyi commented 1 year ago

如果用环境变量的话,那其他的配置怎么办?全部变成环境变量吗?

其实如果可以,能不能把配置独立于配置.py。弄一个配置.json

mengguyi commented 1 year ago

image 那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug

mengguyi commented 1 year ago

我用的https://github.com/mengguyi/sese-engine-docker

RimoChan commented 1 year ago

其实如果可以,能不能把配置独立于配置.py。弄一个配置.json

啊,配置.json和配置.py不一样吗?

mengguyi commented 1 year ago

不太一样,我的意思是配置.py里可以决定配置.json的位置,这样可以在用docker时不用为了改配置.py自己编译镜像

RimoChan commented 1 year ago

image 那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug

应该是,怪耶。

但是我访问了一下你的域名,然后用不了,它说你的后端ssl有问题……

RimoChan commented 1 year ago

不太一样,我的意思是配置.py里可以决定配置.json的位置,这样可以在用docker时不用为了改配置.py自己编译镜像

啊,我以为docker的用法是大家自己进到里面去把文件改了然后再运行的2333

mengguyi commented 1 year ago

image 那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug

应该是,怪耶。

但是我访问了一下你的域名,然后用不了,它说你的后端ssl有问题……

玄学,时不时能访问,服务器家里云

mengguyi commented 1 year ago

你等一会可能就好了

RimoChan commented 1 year ago

image 那个,我运行的爬虫没改爬虫名,它也爬到B站了,这算不算bug

我试了一下,默认配置下的确是不能访问B站的,真奇怪……

mengguyi commented 1 year ago

算了吧,能访问也不是坏事