TurboWay / spiderman

基于 scrapy-redis 的通用分布式爬虫框架
MIT License
591 stars 128 forks source link

开启了布隆过滤器 数据库中有重复内容 #44

Closed donneyluck closed 1 year ago

donneyluck commented 1 year ago

开启了布隆过滤器 image 单个爬虫并发数 5 地址已经设置了去重

image

然后启动job 爬虫数量5 页数5
爬取完毕后 数据库有重复内容 貌似没有过滤成功 目前在单台物理机上 只有启动一个爬虫是正常

donneyluck commented 1 year ago

找到问题了

self.delete() # 如需去重、增量采集,请注释该行

估计是启动后面爬虫的时候 初始化会把生成的指纹给删了 然后就出问题了