Open sp3c73r2038 opened 11 years ago
做一个Hadoop MapReduce程序的练习
从我们网站的访问日志(access log)中,分析出单页访问的来源(http请求的referer地址分类)
anjuke.com
/prop/view*
对于这个练习项目的代码,从以下地址获取 (gitcorp需要先设置公钥,再使用git clone出来)
http://git.corp.anjuke.com/ods2
中的mr目录
mr
构建项目使用
maven clean maven package
遇到有lzo的jar包问题,运行install-hadoop-lzo-lib.sh脚本
install-hadoop-lzo-lib.sh
使用eclipse开发,还需要运行
maven eclipse:eclipse
在eclipse里添加现有项目即可
采样的日志文件我会提供出来
可以先参考try.github.com来熟悉基本的操作使用
try.github.com
熟悉常用命令(clone/push/pull/fetch)等
通过新项目进行职业项目开发流程学习,从中获取到项目开发的基本原理,流程。体验到多人共同开发项目中的协同机理。并且学习项目开发语言,基本框架以及辅助工具,学习基本的文档书写规范及格式。熟悉整体开发环境。
做一个Hadoop MapReduce程序的练习
目的在于
项目需求
从我们网站的访问日志(access log)中,分析出单页访问的来源(http请求的referer地址分类)
anjuke.com
域名,URL为/prop/view*
类的访问记录anjuke.com
等网站)项目流程
对于这个练习项目的代码,从以下地址获取 (gitcorp需要先设置公钥,再使用git clone出来)
中的
mr
目录建立项目
构建项目使用
遇到有lzo的jar包问题,运行
install-hadoop-lzo-lib.sh
脚本使用eclipse开发,还需要运行
在eclipse里添加现有项目即可
采样的日志文件我会提供出来
git使用
可以先参考
try.github.com
来熟悉基本的操作使用熟悉常用命令(clone/push/pull/fetch)等