zhegexiaohuozi / SeimiCrawler

一个简单、敏捷、分布式的支持SpringBoot的Java爬虫框架;An agile, distributed crawler framework.
http://seimicrawler.org
Apache License 2.0
1.98k stars 681 forks source link

下载了楼主的爬虫,研究中。。。,谢谢分享 #1

Closed laugha closed 8 years ago

laugha commented 8 years ago

ConcurrentSkipListSet排重不合适吧,程序当掉重启后就无法排重了,还是持久化到磁盘更好??

zhegexiaohuozi commented 8 years ago

其实小规模非生产环境使用的场景下使用内存去重还是使用本地文件区别不大,作为生产环境使用的话,肯定更要容易运维且水平扩展,这时候建议启用默认的基于redis的SeimiQueue实现,或是自行实现并接入其他成熟的数据存储系统。不过以后我也会考虑支持简易版的磁盘存储,只是不作为优先支持。

laugha commented 8 years ago

多谢,期待SeimiCrawler越来越好,使用中有问题再请教

zhegexiaohuozi commented 8 years ago

谢谢支持!