marchboy / marchboy.github.io

0 stars 0 forks source link

Spark笔记-玩转RDD操作 | ComputerScience #17

Open marchboy opened 3 years ago

marchboy commented 3 years ago

https://marchboy.github.io/2020/10/14/Spark%E7%AC%94%E8%AE%B0-%E7%8E%A9%E8%BD%ACRDD%E6%93%8D%E4%BD%9C/#more

RDD(Resilient Distributed Dataset)译作弹性分布式数据集,是Spark中最常用的数据抽象,是一个只可读、可分区、可并行计算的数据集合。RDD允许将工作集缓存在内存中进行复用,大大地提升了查询速度。 RDD简介 MapReduce 在面对日益复杂的业务逻辑时已经表现出严重的不足:1)维护成本高昂,每一次数据处理都需要编写复杂的Map和Reduce步骤,中间某一步骤