FS1360472174 / spark-knowledge

notes for learning spark
0 stars 0 forks source link

checkpoint #8

Open FS1360472174 opened 7 years ago

FS1360472174 commented 7 years ago

分布式数据集的容错

将生成的RDD保存到外部可靠的存储当中,对于一些数据跨度为多个bactch的有状态tranformation操作来说,checkpoint非常有必要,因为在这些transformation操作生成的RDD对前一RDD有依赖,随着时间的增加,依赖链可能会非常长,checkpoint机制能够切断依赖链,将中间的RDD周期性地checkpoint到可靠存储当中,从而在出错时可以直接从checkpoint点恢复。