issues
search
code4craft
/
webmagic
A scalable web crawler framework for Java.
http://webmagic.io/
Apache License 2.0
11.45k
stars
4.18k
forks
source link
FileCacheQueueScheduler使用BloomFilter进行去重
#1176
Closed
blanexie
closed
3 months ago
blanexie
commented
3 months ago
修改的内容如下:
去重器换成了BloomFilter , 去掉了其中urls属性,防止抓起的网页过多导致内存爆炸
优化了格式和import行
避免readCursorFile中重复创建AtomicInteger对象
修改的内容如下: