Spark内核初探 - Githubissues

duoan / notes

Classtag's Notebooks

https://github.com/classtag/notebook/issues

9 stars 3 forks source link

Spark内核初探 #13

Open duoan opened 8 years ago

duoan commented 8 years ago

一、内核初探

1、核心术语

Application

Application 是创建了 SparkContext 实例对象的 Spark 用户,包含了 Driver 程序
Job

和 Spark 的 action 相对应,每一个 action 例如 count、savaAsTextFile 等都会对应一个 Job 实例,该 Job 实例包含多任务的并行计算
Driver Program

运行 main 函数并且新建 SparkContext 实例的程序
Cluster Manager

集群资源管理的外部服务,在 Spark 上现在主要有 Standalone、Yarn、Mesos 等三种集群资源管理器,Spark 自带的 Standalone 模式能够满足绝大部分纯粹的 Spark 计算环境中对集群资源管理的需求,基本上只有在集群中运行多套计算框架的时候才建议考虑 Yarn 和 Mesos
Worker Node

集群中可以运行应用程序代码的工作节点,相当于 Hadoop 的 slave 节点
Executor

在一个 Worker Node 上为应用启动的工作进程,在进程中负责任务的运行,并且负责将数据存放在内存或磁盘上,必须注意的是,每个应用在一个 Worker Node 上只会有一个 Executor,在 Executor 内部通过多线程的方式并发处理应用的任务
Task

被 Driver 送到 executor 上的工作单元,通常情况下一个 task 会处理一个 split 的数据, 每个 split 一般就是一个 Block 块的大小
Stage

一个 Job 会被拆分成很多任务,每一组任务被成为 Stage,这个 MapReduce 的 map 和 reduce 任务很像,划分 Stage 的依据在于：Stage 开始一般是由于读取外部数据或者 Shuffle 数据、一个 Stage 的结束一般是由于发生 Shuffle(例如 reduceByKey 操作)或者整个 Job 结束时例如要把数据放到 hdfs 等存储系统上

2、集群概览
官网定义
- 主从结构 Master(1) -> Work(n)
- Work的源码

注意：Spark Driver所在的集群需要和Spark集群最好位于同一个网络环境中？

因为Driver中的SparkContext实例需发送任务给不同WorkerNode的Executor并接受Executor的一些执行结果信息

3、核心组件

4、任务调度系统初见

二、核心源码解析

三、Job全生命周期源码

四、解读 RDD 源码

五、Driver、Master、Woker