lw-lin / CoolplaySpark

酷玩 Spark: Spark 源代码解析、Spark 类库等
3.46k stars 1.41k forks source link

这篇文档("0.1 Spark Streaming 实现思路与模块概述.md")存在描述错误的地方 #45

Open highfei2011 opened 6 years ago

highfei2011 commented 6 years ago

如下: DStream 和 RDD 的关系 既然 DStream 是 RDD 的模板,而且 DStream 和 RDD 具有相同的 transformation 操作,比如 map(), filter(), reduce() ……等等(正是这些相同的 transformation 使得 DStreamGraph 能够忠实记录 RDD DAG 的计算逻辑),那 RDD 和 DStream 有什么不一样吗?

此处描述有误:reduce()是action操作,而不是transformation操作

Marcus366 commented 5 years ago

同意,按官网列举。 https://spark.apache.org/docs/latest/rdd-programming-guide.html reduce()是action,reduceByKey()才是transformation 不过原文原意应该是想列reduceByKey作为例子