issues
search
CrawlScript
/
nutcher
nutcher是中文的nutch文档,包含nutch的配置和源码解析,持续更新中。
GNU General Public License v2.0
128
stars
57
forks
source link
readme
nutcher
nutcher是中文的nutch文档,包含nutch的配置和源码解析,在github持续更新。
本教程由
DataHref
提供,未经允许,禁止转载。
目录:
Nutch教程——导入Nutch工程,执行完整爬取
Nutch流程控制源码详解(bin/crawl中文注释版)
URLNormalizer源码详解(Nutch的URL正规化机制)
Nutch 的正则表达式配置 (regex-urlfilter.txt)
在 windows 上配置 hbase
Nutch的定位