hi-KK / VulDB_Spider

vulnerability database spider 爬取NVD、CNVD、CNNVD等漏洞数据库
212 stars 65 forks source link

老哥 有个问题想咨询下 现在我已经用你程序读取了全量的CNNVD数据,我又修改了下然它存储在mysql中,但是现在有个问题是下一次爬取和存储不能想继续爬取所有的漏洞信息了 #8

Closed CSDN111 closed 3 years ago

CSDN111 commented 3 years ago

有个问题想咨询下 现在我已经用你程序读取了全量的CNNVD数据,我又修改了下让它存储在mysql中。但是现在有个问题是下一次爬取和存储不能继续爬取所有的漏洞信息了,这样的话太耗时了低效了,而且最新的漏洞信息永远是在第一页,通过手动输入总页数也无法实现。这种情况怎么解决 想跟你交流下

hi-KK commented 3 years ago

可以限定爬取页数,比如观察cnnvd每天会更新多少页,如果是10页,你就限定每天爬取20页,爬虫框架自带去重,会根据访问的url生成唯一taskid,爬取过的url就不会再入库