Closed ZhangRuige closed 9 years ago
经过查询资料后综合分析,决定采用Nutch开源架构,并将nutch中的爬虫改造成一个垂直、增量搜索的爬虫。选用nutch主要理由有: 1、基于Hadoop任务的分布式处理模型保证了系统的性能。 2、基于插件式设计,扩展和定制比较方便。 3、支持网页解析和索引。 4、存储层剥离,支持存储HBase, MySql等数据库。
接下来计划: 1、试用nutch。 2、尝试将nutch改造成垂直搜索和增量搜索。 明天任务: 1、安装试用nutch。
下午找了本《自己动手写网络爬虫》,学习章节 :全面剖析网络爬虫。主要内容有:抓取网页;宽度优先爬虫;设计爬虫队列;设计爬虫框架;使用多线程技术提升爬虫性能。 接下来计划,利用1-2天的时间将这本书过一遍,然后选取一个开源的爬虫项目,在此基础上部署我们的爬虫。