code4craft / webmagic

A scalable web crawler framework for Java.
http://webmagic.io/
Apache License 2.0
11.45k stars 4.18k forks source link

FileCacheQueueScheduler使用BloomFilter进行去重 #1176

Closed blanexie closed 3 months ago

blanexie commented 3 months ago

修改的内容如下:

  1. 去重器换成了BloomFilter , 去掉了其中urls属性,防止抓起的网页过多导致内存爆炸
  2. 优化了格式和import行
  3. 避免readCursorFile中重复创建AtomicInteger对象