Open zzugbb opened 5 years ago
Apache Zeppelin
是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。Zeppelin
是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等
Zeppelin
中最核心的概念是 Interpreter--解释器
,interpreter是一个插件允许用户使用一个指定的语言或数据处理器。每一个Interpreter都属于一个InterpreterGroup,同一个InterpreterGroup的Interpreters可以相互引用,例如SparkSqlInterpreter 可以引用 SparkInterpreter 以获取 SparkContext,因为他们属于同一个InterpreterGroup。当前已经实现的Interpreter有Scala(with Apache Spark)解释器,Python(with Apache Spark)解释器,SparkSQL解释器,JDBC,Markdown和shell等。
For example, to use Scala code in Zeppelin, you need %spark interpreter.
在 interpreter
页面, 点击 +Create
,此时看到 Interpreter group
, 会列举服务器上所有的 interpreters
。
配置完 interpreter setting
, 就可以添加新的 interpreter.
每个 notebook
可以设置多个 Interpreter
, 通过设置按钮。也可以改变顺序,等直接拖动即可。
每个 interpreter 都属于一个单一的 Interpreter Group, 一个 Interpreter Group 可以包含多个 interpreter
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
Spark interpreter group 包含以下 interpreter
%spark
# Creates a SparkContext and provides a Scala environment%spark.pyspark
# Provides a Python environment%spark.r
# SparkRInterpreter Provides an R environment with SparkR support%spark.sql
# SparkSQLInterpreter Provides a SQL environment%spark.dep
# DepInterpreter Dependency loader参照官方提示 demo 即可
//表生成时问题
import org.apache.spark.{SparkContext, SparkConf}
val conf = new SparkConf().setAppName("RDD To DF")
conf.set("spark.driver.allowMultipleContexts","true"); //允许同时存在多个SparkContext
val sc = new SparkContext(conf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
val bankText = sc.textFile("/user/yyw/data/bank/bank-full.csv")
chart-visualization
图表可视化
Echarts
Antv
更多扩展
参考资料