Open dawncc opened 7 years ago
/usr/local/hadoop# ./sbin/start-dfs.sh
访问地址:
http://120.24.38.209:50070/
hadoop fs -ls / 查看hdfs的根目录下的内容的
hadoop fs -lsr / 递归查看hdfs的根目录下的内容的
hadoop fs -mkdir /d1 在hdfs上创建文件夹d1
hadoop fs -put <linux source> <hdfs destination> 把数据从linux上传到hdfs的特定路径中
hadoop fs -get <hdfs source> <linux destination> 把数据从hdfs下载到linux的特定路径下
hadoop fs -text <hdfs文件> 查看hdfs中的文件
hadoop fs -rm 删除hdfs中文件
hadoop fs -rmr 删除hdfs中的文件夹
from pyspark import SparkContext
inputFile = 'hdfs://localhost:9000/user/hadoop/test*' #测试文档
outputFile = 'hdfs://localhost:9000/user/hadoop/spark-out' #结果目录
sc = SparkContext('local', 'dfs[a-z.]+')
text_file = sc.textFile(inputFile)
counts = text_file.flatMap(lambda line: line.split(' ')).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
counts.saveAsTextFile(outputFile)
$SPARK_HOME/bin/spark-submit wordcount.py
bin/hdfs dfs -cat /user/hadoop/spark-out/*
('', 2505)
('of', 66)
('an', 8)
('CONDITIONS', 8)
('limitations', 8)
('accompanying', 4)
('file.', 7)
('<name>yarn.scheduler.capacity.maximum-applications</name>', 1)
('ResourceCalculator', 1)
。。。
安装Hadoop
http://www.powerxing.com/install-hadoop/