vieyahn2017 / repos

【已经迁移到goto/javaway】
2 stars 1 forks source link

基于Apache Zeppelin: 大数据分析平台搭建 #28

Closed vieyahn2017 closed 7 months ago

vieyahn2017 commented 5 years ago

 Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表。Zeppelin的后台数据引擎可以是Spark(目前只有Spark),开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。官方支持的执行引擎用一幅图可以清晰描述

执行引擎的作用就是执行笔记中的与引擎相对应的代码,不同的引擎也会有不同的配置,引擎的详细说明参考官方文档:http://zeppelin.apache.org/docs/0.6.2/manual/interpreters.html

vieyahn2017 commented 5 years ago

https://github.com/apache/zeppelin

vieyahn2017 commented 5 years ago

 在编写 Flink,Spark,Hive 等相关作业时,要是能快速的将我们所编写的作业能可视化在我们面前,是件让人兴奋的时,如果能带上趋势功能就更好了。今天,给大家介绍这么一款工具。它就能满足上述要求,在使用了一段时间之后,这里给大家分享以下使用心得。

2.How to do   首先,我们来了解一下这款工具的背景及用途。Zeppelin 目前已托管于 Apache 基金会,但并未列为顶级项目,可以在其公布的 官网访问。它提供了一个非常友好的 WebUI 界面,操作相关指令。它可以用于做数据分析和可视化。其后面可以接入不同的数据处理引擎。包括 Flink,Spark,Hive 等。支持原生的 Scala,Shell,Markdown 等。

2.1 Install   对于 Zeppelin 而言,并不依赖 Hadoop 集群环境,我们可以部署到单独的节点上进行使用。首先我们使用以下地址获取安装包:

http://zeppelin.incubator.apache.org/download.html   这里,有2种选择,其一,可以下载原文件,自行编译安装。其二,直接下载二进制文件进行安装。这里,为了方便,笔者直接使用二进制文件进行安装使用。这里有些参数需要进行配置,为了保证系统正常启动,确保的 zeppelin.server.port 属性的端口不被占用,默认是8080,其他属性大家可按需配置即可。[配置链接]

https://blog.csdn.net/shujuelin/article/details/80474462

vieyahn2017 commented 5 years ago

大数据分析平台搭建教程:基于Apache Zeppelin Notebook和R的交互式数据科学 https://blog.csdn.net/u011596455/article/details/78069854 2017年09月23日 11:46:47 HuFeiHu-Blog 阅读数:321 介绍 这篇文章的目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用R做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。

然而,最新的官方版本是0.5.0,还不支持R编程语言。幸运的是,NFLabs公司做了个开源项目,让我提供了一个R的编译器。这个编译器是让用户可以使用自定义的语言做为数据处理后端的一个 Zeppelin 插件。例如在 Zeppelin 使用scala代码,您需要一个 Spark编译器。所以,如果你像我一样有足够的耐心将R集成到Zeppelin中, 这个教程将告诉你怎样从源码开始配置 Zeppelin和R。