aliyun / aliyun-emapreduce-demo

Artistic License 2.0
122 stars 54 forks source link

本项目包含以下示例:

MapReduce

Hive

Pig

Spark

PySpark

依赖资源

测试数据(data目录下):

依赖jar包(lib目录下)

准备工作

本项目提供了一些测试数据,您可以简单地将其上传到OSS中即可使用。其他示例,例如ODPS,MNS,ONS和Loghub等等,需要您自己准备数据如下:

基本概念:

集群运行

本地运行

这里主要介绍如何在本地运行Spark程序访问阿里云数据源,例如OSS等。如果希望本地调试运行,最好借助一些开发工具,例如Intellij IDEA或者Eclipse。尤其是Windows环境,否则需要在Windows机器上配置Hadoop和Spark运行环境,很麻烦。