Hadoop 集群新手操作指南

主要记录一些常用的命令和操作，Hadoop新手向。

1. 脚本命令工具位置

Hadoop各模块的命令在bin/目录下面，包括hadoop, yarn, hdfs等模块的命令
Hadoop自带的管理相关的脚本在sbin/目录下面，包括start-all.sh, start-dfs.sh, start-yarn.sh等启动停止服务的脚本

进入和退出安全模式

hdfs dfsadmin -safemode enter
hdfs dfsadmin -safemode leave

查看HDFS中的目录：

hadoop fs -ls /
hadoop fs -lsr / #递归打印

创建目录

hadoop fs -mkdir <patch> #类似于shell下的mkdir -p命令

上传文件到HDFS中
```
hadoop fs -put <localfile> <dfs dir>
```
从HDFS中获取文件到本地
```
hadoop fs -get <src> <localdist>
```
从HDFS中删除文件
```
hadoop fs -rm -r <URI>
```
注：这里只是举例列出几个常见的hadoop文件系统相关的命令，更多命令可以参见官方的文档。

Map Reduce作业相关的命令
```
mapred job -list
mapred job -status
```
用于管理Map Reduce作业相关命令，可以通过mapred job --help 查看该命令的更多参数。
Map Reduce pipe作业管理
```
mapred pipes
```
目前还没接触过这一块，可以通过mapred pipes --help查看更多参数

Daemon	Web Interface	Notes
NameNode	http://nn_host:port/	Default HTTP port is 9870.
ResourceManager	http://rm_host:port/	Default HTTP port is 8088.
MapReduce JobHistory Server	http://jhs_host:port/	Default HTTP port is 19888.

其中JobHistory Server需要单独启动jobhistory服务才可用。

打开控制台DEBUG level的日志可以通过下面的命令开启hadoop任务控制台输出DEBUG level的日志
```
export HADOOP_ROOT_LOGGER=DEBUG,console
```
或者在etc/hadoop/log4j.properties中单独配置某个模块的日志level