allwefantasy / delta-plus

A library based on delta for Spark and MLSQL
61 stars 24 forks source link

【增量同步】 多种增量同步方式对比 #12

Open zhengqiangtan opened 4 years ago

zhengqiangtan commented 4 years ago

我们遇到的数据同步痛点: 1、数据量2千万+ 2、数据经常变(包含删除动作),无法用传统的方式进行增量同步

可选CDC(CHANGE DATA CAPTURE)场景方案调研:

allwefantasy commented 4 years ago

compaction(delta plus) 在第三种方案里是不需要的。原因是因为在每次同步的时候,delta-plus会自动控制文件数目。 如果你的hive满足要求的话,官方已经提供了hive 读delta 的connector,并不需要再导入到hive, hive可以直接读取delta。 所以可以实现非常低的延时。