CrawlScript / nutcher

nutcher是中文的nutch文档,包含nutch的配置和源码解析,持续更新中。
GNU General Public License v2.0
128 stars 57 forks source link

不错,希望能尽快跟进2.X系列 #1

Closed xautlx closed 3 years ago

xautlx commented 9 years ago

BTW,本人也在github和oschina上面提交了nutch相关的项目,欢迎关注,互相交流:

https://github.com/xautlx/nutch-ajax 基于Apache Nutch 2.3和Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引。

https://github.com/xautlx/nutch-htmlunit 基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。

zergxyz commented 9 years ago

1.x系列的速度非常好,对内存的消耗也比2.x系列好很多,感觉2.x系列在gora没有重大改进之前基本不能作为一个decent爬虫用,还是应该稍微再等等看。