JPCui / red-spider

:spider:基于webmagic的可定制规则爬虫
1 stars 1 forks source link

URL发现与队列的问题 #4

Closed JPCui closed 6 years ago

JPCui commented 6 years ago

发现新URL会先入总队列(set),然后插入待爬取队列(queue),假如中间出错中断,该URL就无法进去待爬取队列,不会再去爬取了

另外一个问题:

由于网络原因,连接超时,就会抛异常,爬取失败,但已经从queue中取出,所以之后服务重启,该URL也不再重新爬取

JPCui commented 6 years ago

先看下webmagic具体如何实现的

判断新URL是否重复的时候,已经放到全量集合 set1 里,加入 url 不存在,则放入 queue 里,如果 url 下载失败,则该 url 以后不会再爬取

所以定义一个成功爬取的 set2 集合,定时比较 set1, set2 的差集,即为未成功爬取的集合