Closed donneyluck closed 1 year ago
开启了布隆过滤器 单个爬虫并发数 5 地址已经设置了去重
然后启动job 爬虫数量5 页数5 爬取完毕后 数据库有重复内容 貌似没有过滤成功 目前在单台物理机上 只有启动一个爬虫是正常
找到问题了
估计是启动后面爬虫的时候 初始化会把生成的指纹给删了 然后就出问题了
开启了布隆过滤器 单个爬虫并发数 5 地址已经设置了去重
然后启动job 爬虫数量5 页数5
爬取完毕后 数据库有重复内容 貌似没有过滤成功 目前在单台物理机上 只有启动一个爬虫是正常