RimoChan / sese-engine

【sese-engine】新时代的搜索引擎!
https://sese.yyj.moe
Other
607 stars 53 forks source link

我是否可以添加多个爬虫? #19

Closed gitchw closed 2 years ago

gitchw commented 2 years ago

这样的配置文件可行嘛

from pathlib import Path

注释的内容都是加大这些参数的情况下的变化

单键最多url = 11000 # 增加多关键词查找能力,增加硬盘消耗,略微降低爬取效率 单键最多相同域名url = 20 # 增加有效结果的相关性,减少有效结果数量 大清洗行数 = 10000000 # 增加平均爬取效率,增加峰值内存 单键最多新增url = 10000 # 减少键的url的增长速度 新增键需url数 = 3 # 减少键的增长速度

爬虫的名字 = 'loli_spider' 爬取线程数 = 44 # 增加爬取效率,增加网络和CPU消耗 爬取集中度 = 0.7 # 增加爬取目标集中在单个域名下的概率 (超过1的值没有效果) 单网页最多关键词 = 250 入口 = 'https://cn.bing.com/'

爬虫的名字 = 'loli_spider_baidu' 爬取线程数 = 44 # 增加爬取效率,增加网络和CPU消耗 爬取集中度 = 0.7 # 增加爬取目标集中在单个域名下的概率 (超过1的值没有效果) 单网页最多关键词 = 250 入口 = 'https://baidu.com/'

使用在线摘要 = True # 增加搜索结果信息的可读性,增加搜索时间 在线摘要限时 = 3 # 减少信息不完整的搜索结果数量,增加搜索时间 权重每日衰减 = 0.996 # 增加已经过期的网站的权重 语种权重 = 0.5 # 增加中文网站的权重,减少我看不懂的语种的网站的权重 连续关键词权重 = 1.3 # 增加连续的关键词的权重,例如搜索「萝莉美少女」时,「萝莉美少女」会有加成,但是「萝莉和美少女」没有 反向链接权重 = 1 # 增加反向链接更多的网站的权重 减权关键词 = [] 减权关键词权重 = 0.1 # 减少含有减权关键词的域名的权重

存储位置 = Path('./savedata') ~
~

RimoChan commented 2 years ago

不行,我们没有这个功能……

gitchw commented 2 years ago

emmmm,那我能爬一会百度爬一会搜狗等等的嘛?

RimoChan commented 2 years ago

等等,我感觉你对配置是有出了什么误解! 这个爬虫的名字指的是你的名字,爬取的范围总是整个互联网 (尽管实际上是它的一个连通子集) ,入口只是对网页的概率分布略有影响。

gitchw commented 2 years ago

!是我的理解出现了问题,感谢您的耐心解释